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推 存 序 


作为 一 位 机 器 学 习 领 域 研习 10 年 以 上 的 专业 技术 人 员 ， 我 当初 入 
行 的 时 候 没 有 想到 ， 短 短 的 10 年 间 ， 这 项 技术 会 如 此 快速 地 改变 众多 
行业 ， 并 影 啊 全 球 数 十 亿 用 户 生 活 的 方方面面 。 在 今天 ， 当 你 用 今日 
头条 浏 宽 新 闻 资 讯 的 时 候 ， 当 你 用 网 易 云 音乐 查看 推荐 歌 单 的 时 候 ， 
当 你 在 百度 搜索 信息 的 时 候 ， 当 你 在 互联 网 金融 平台 申请 借款 的 时 
候 ， 甚 至 在 你 调戏 Siri 和 小 冰 的 时 候 ， 其 实 部 是 其 背后 的 机 右 学 习 算 法 
在 云端 服务 器 中 为 你 默默 服务 。 但 对 于 这 样 一 种 重要 技术 ， 市 面 上 一 
直 缺 少 一 本 适合 普通 读者 的 入 门 科普 读物 ， 而 众多 的 专业 书籍 要 求 读 
者 具备 一 定 的 高 等 数学 和 计算 机 基础 算法 知识 ， 并 不 适合 科普 的 需 
要 。 直 到 中 信 出 版 社 的 朋友 将 这 本 书 的 翻译 入 推荐 给 我 时 ， 我 欣慰 地 
发 现 ， 这 正 是 想 了 解 一 点 机 器 学 习 的 普通 读者 所 需要 的 啊 。 本 书 的 作 
者 多 明 戈 斯 古 华 盛 顿 大 学 的 终 喘 教 授 ， 也 是 一 位 在 机 器 学 习 领 域 具有 
20 年 癸 守 经 历 的 货 深 科学 家 。 多 明 戈 斯 一 直 致 力 于 融合 各 种 机 峪 学 习 
算法 的 优势 ， 提 出 一 种 可 以 解决 所 有 应 用 问题 的 通用 算法 ， 即 终极 算 
法 。 在 这 本 书 里 ， 作 者 详细 地 前 述 了 他 的 思路 。 其 实 我 个 人 在 阅读 本 
书 的 过 程 中 ， 始 终 对 “终极 算法 ”的 提 法 充满 怀疑 。 在 我 看 来 ， 机 大 学 
习作 为 人 工 知 能 领域 的 主流 技术 ， 在 现实 社会 中 一 直 以 技术 工具 的 面 
目 为 人 所 知 。 不 同 的 技术 流派 和 相应 算法 往往 可 以 很 好 地 解决 一 些 问 
题 ， 却 对 吃 一 些 问 题 一 筹 砚 展 。 所 谓 的 终极 算法 真 的 存在 吗 ? 如 采 存 
在 ， 有 价值 吗 ? 


可 以 拿 内 燃 机 举 个 例子 ， 束 我 这 个 外 行 来 说 ， 也 知道 存在 活塞 式 
发 动机 、 涡 喷发 动机 、 涡 轴 发 动机 、 涡 情 发 动机 、 涡 染发 动机 、 冲 压 
发 动机 等 不 同 种 类 的 内 燃 机 。 不 同 的 内 燃 机 特性 杀 异 ， 适 用 的 工 况 也 
不 尽 相 同 。 小 到 家 用 小 汽车 ， 大 到 导弹 驱逐 豹 ， 人 类 制造 的 各 种 机 动 


设备 ， 部 可 以 根据 目 己 的 效率 需求 、 动 力 需 求 、 寿 命 需求 ， 力 至 局 动 
速度 等 多 种 需求 维度 选择 发 动机 种 类 。 如 采 有 人 非 要 搞 个 终极 内 燃 
机 ， 并 企图 用 这 种 内 燃 机 替代 现存 的 各 类 内 燃 机 ， 为 所 有 大 大 小 小 、 
需求 不 同 的 机 动 设备 提供 统一 动力 ， 信 计 大 概率 是 要 失败 的 。 这 种 通 
用 的 终极 内 燃 机 如 采 能 摘出 来 ， 在 大 部 分 领域 肯定 竞争 不 过 各 领域 的 
专用 内 燃 机 ， 或 者 成 本 太 高 ， 或 者 能 效 太 低 。 


带 着 这 种 疑问 ， 我 通 篇 读 下 来 之 后 才 发 现 作者 的 男 一 层 用 意 。 诚 
如 作者 所 说 ， 很 多 普通 人 可 能 没有 意识 到 目 己 的 生活 中 机 器 学 习 算 法 
的 影响 已 经 无 处 不 在 ， 机 器 学 习 已 经 在 逐渐 接管 现实 世界 。 大 众 对 这 
样 一 种 技术 的 认 知 程度 和 该 技术 的 重要 性 相 比 显得 远 远 不 够 ， 在 不 远 
的 未 来 ， 了 解 机 需 学 习 并 有 能 力 利用 机 才学 习 改 进 目 己 工 作 的 人 在 职 
业 发 展 上 会 具备 巨大 的 优势 。“ 不 要 和 人 工 智能 对 抗 ， 要 让 人 工 智能 为 
你 服务 是 作者 诚 涩 的 忠告 。 而 要 利用 好 机 融 学 习 这 个 工具 ， 并 不 一 定 
需要 读 一 个 计算 机 博士 学 位 ， 但 有 必要 了 解 一 些 基 本 的 概念 ， 了 解 各 
种 技术 的 优 缺 点 和 能 力 边界 。 正 如 一 位 称职 的 驾驶 员 不 必 了 解 具 体 怎 
么 制造 汽车 发 动机 ， 但 是 对 发 动机 的 工作 原理 和 种 类 还 是 需要 略 知 一 
二 的 。 因 此 ， 相 比 一 板 一 眼 地 介绍 机 器 学 习 的 典型 算法 ， 作 者 设计 了 
一 个 更 引人入胜 的 套路 : 先 抛 出 一 个 “是 否 存 在 一 种 终极 算法 ”的 问 
题 ， 然 后 市 着 读者 一 章 一 章 地 回顾 机 器 学 习 发 展 史 上 的 重要 流派 和 代 
表 算法 。 每 回顾 一 派 ， 就 疼 励 读 者 思考 终极 算法 应 该 如 何 借鉴 这 类 算 
法 的 优点 。 好 柯 的 普通 读者 市 着 疑问 读 完 本 书后 ， 不 论 其 是 否 相信 终 
极 算法 的 存在 ， 至 少 对 各 类 算法 都 会 有 一 定 的 印象 。 以 讨论 终极 算法 
为 名 ， 行 科普 之 实 ， 到 这 一 步 ， 我 觉得 作者 的 目的 已 经 达到 一 半 了 。 


另外 ， 在 文 末 作 者 还 提 到 ， 无 论 终极 算法 是 否 存 在 ， 他 希望 这 个 
大 胆 的 问题 能 够 激发 部 分 读者 的 好 奇 ， 甚 至 被 这 个 问题 吸引 成 为 机 天 
学 习 的 专业 研究 人 员 。 确 实 ， 每 一 种 学 科 都 需要 有 至 高 的 理想 驱动 问 
前 ， 融 如 同 物理 的 大 一 统 理论 ， 当 无 数 术 出 的 天 才 为 一 个 终极 问题 孜 
孜 以 求 时 ， 就 算 这 个 问题 本 喘 在 这 些 人 的 有 生 之 年 可 能 没有 管 案 ， 但 


古 这 个 学 科 一 定 会 因为 这 些 伟大 的 探索 历程 取得 辉 焊 的 进步 。 我 想 ， 
这 也 许 是 作者 因为 对 机 器 学 习 的 热爱 来 之 的 男 一 个 私 货 吧 。 

作为 今日 头条 的 一 位 算法 架构 师 ， 我 倒是 布 望 头条 用 户 痢 能 陷入 
作者 的 “圈套 ”， 市 着 好 奇 心 ， 好 好 读 读 这 本 书 。 如 果 大 多 数 用 户 都 能 
了 解 一 些 机 器 学 习 的 基础 知识 ， 应 该 就 能够 更 好 地 和 推荐 算法 互动 ， 
不 断 把 算法 调教 得 更 好 ， 更 符合 目 己 真正 的 兴趣 ， 而 不 会 因为 算法 一 
开始 推荐 的 内 容 不 好 束 放 弃 这 个 产品 。 诚 如 作者 所 说 ， 也 许 在 未 来 ， 
对 应 人 类 的 心理 学 ， 也 会 出 现 机 此 心理 学 ， 了 解 一 点 机 右 人 的 心理 ， 
会 让 你 和 机 妖 的 互动 更 有 效率 ， 也 会 让 机 器 更 快 地 成 为 你 忠实 、 不 知 
疲倦 的 助手 。 


曹 欢 欢 
今日 头条 首席 算法 构 染 师 


序 


你 也 许 不 知道 ， 但 机 需 学 习 丈 在 你 身边 。 当 你 把 查询 信息 输入 搜 
索引 警 时 ， 它 确定 该 回 你 显示 哪些 搜索 结果 (包括 显示 哪些 广告 ) 。 
当 你 打开 邮箱 时 ， 大 部 分 垃圾 邮件 你 无 法 看 到 ， 因 为 计算 机 已 经 把 这 
些 垃 圾 邮件 过 泪 了 。 登 录 亚 马 逊 网 站 购买 一 本 书 ， 或 登录 网 飞 
(Netflix) 公司 网 站 观看 视频 ， 机 器 学 习 系 统 会 推荐 一 些 你 可 能 喜欢 
的 产品 。 脸 书 (Facebook) 利用 机 器 学 习 决 定 该 癌 你 展示 哪些 更 新 ， 
推 特 (Twitter) 也 同样 会 决定 显示 哪些 文章 。 你 使 用 计算 机 的 任何 时 
候 ， 都 有 可 能 涉及 机 器 学 习 。 


传统 上 认为 ， 让 计算 机 完成 蘑 件 事情 的 唯一 方法 (从 把 两 个 数 相 
加 到 芍 驶 飞机 ) ， 就 是 非常 详细 地 记录 某 个 算法 并 解释 其 如 何 运 行 。 
但 机 器 学 习 算法 就 不 一 样 : 通过 从 数据 中 推断 ， 它 们 目 己 会 弄 明日 做 
事 方 法 。 掌 握 的 数据 越 多 ， 它 们 的 工作 束 越 顺利 。 现 在 我 们 不 用 给 计 
算 机 编程 ， 它 们 目 己 给 目 己 编程 。 


机 器 学 习 不 仅 存 在 于 网 络 空 间 ， 它 还 存在 于 你 每 天 的 生活 中 ， 从 
你 醒 来 到 入 睡 ， 每 时 每 刻 无 所 不 在 。 


早上 7 点 你 的 收音 机 亲 钟 啊 起 ， 播 放 的 是 你 之 前 从 未 听 过 的 歌曲 ， 
但 你 的 确 很 喜欢 这 首 歌 。Pandora 电 台 〈 可 免费 根据 你 的 喜好 播放 歌 
曲 ) 的 优势 在 于 ， 根 据 你 听 的 音乐 ， 电 台 掌 握 了 你 的 品位 ， 就 像 你 目 
己 的 radio jock 账 喜 一 样 。 这 些 歌曲 本 身 可 能 借助 机 天 学 习 来 播放 。 接 
下 来 你 号 早餐 ， 阅 读 早报 。 早 报 在 几 个 小 时 前 印 好 ， 利 用 学 习 算法 ， 
印刷 过 程 经 过 仔细 调整 ， 以 免 报 纸 出 现 折 凑 。 你 房间 的 温度 刚刚 好 ， 
电费 明显 少 了 很 多 ， 因 为 你 安装 了 Nest 千 能 温 探 郁 。 


你 开车 去 上 班 ， 车 持续 调整 燃油 嘎 射 和 排 气 再 循环 ， 以 达到 最 佳 
的 油耗 。 你 利用 一 个 交通 预报 系统 (Inrix) 来 缩短 高 峰 时 段 上 下 班 的 
时 间 ， 这 当然 能 减缓 你 的 压力 。 上 班 时 ， 机 疑 学习 帮 你 克服 信息 超 
载 。 你 利用 数据 立方 体 来 汇总 大 量 数据 ， 从 每 个 角度 观察 该 立方 体 ， 
获取 最 有 用 的 信息 。 你 要 决定 是 采用 布局 方案 A， 还 是 采用 布局 方案 
B， 以 便 为 网 站 融 来 更 多 的 业务 。 网 络 学 习 系 统 会 答 试 两 种 布局 方 
案 ， 并 给 予 反 馈 。 你 得 对 潜在 供应 商 的 网 站 进行 调查 ,但 网 站 的 语言 
征 外 语 。 没 关系 ， 谷 歌会 目 动 为 你 翻译 。E-mail 会 目 动 分 类 并 归 入 相 
应 的 文件 夹 ， 只 把 最 重要 的 信息 留 在 邮箱 里 ， 非 常 方便。 文字 处 理 软 
件 帮 你 查找 语法 和 拼写 错误 。 你 为 即将 到 来 的 行程 查找 到 一 个 航班 ， 
但 决定 推迟 购买 机 票 ， 因 为 必 应 旅行 (Bing Travel) 预测 票 价 很 快 会 
下 降 。 也 许 你 没有 意识 到 以 上 这 些 ， 要 不 古 机 器 学 习 帮 助 你 ， 你 可 能 
要 马 不 集 蹄 地 亲 目 做 很 多 事情 。 


你 在 休 忆 时 间 碍 看 目 己 的 共同 基金 ， 大 部 分 基金 利用 学 习 算法 来 
选 股 ， 其 中 的 某 些 基金 完全 由 学 习 系统 运作 。 午 餐 时 间 到 了 ， 你 走 在 
大 街 上 ， 想 找 个 吃饭 的 地 方 ， 这 时 候 用 手机 上 的 Yelp 点 评 应 用 程序 来 
帮助 你 。 你 的 手机 充满 了 学 习 算 法 ， 它 们 努力 工作 ， 改 正 拼写 错误 、 
理解 口头 指令 、 减 少 传输 误 壹 、 识 别 条 形 码 ， 还 有 其 他 很 多 事情 。 手 
机 甚至 可 以 预测 你 接 下 来 会 做 什么 ， 然 后 依 此 给 出 建议 。 例 如 ， 当 你 
吃 完 午餐 后 ， 它 会 小 心 跨 中 地 提示 你 ， 下 午 和 外 地 来 访 者 的 会 面 要 推 
人 迟 ， 因 为 她 的 航班 延误 了 。 


下 班 时 夜 人 幕 已 降临 ， 你 走 同 目 己 的 车 ， 机 器 学 习 会 保证 你 的 安 
全 ， 监 测 信 车场 监控 摄像 头 的 邓 像 ， 如 末 探 测 到 可 疑 人 的 行动 ， 它 会 
提示 不 在 场 的 安 休 人员。 在 回 家 路 上 ， 你 在 超市 门口 停车 ， 走 同 超 市 
货物 通道 ， 通 道 借 助 学 习 算 法 进行 布置 : 该 摆 放 哪些 货物 ， 通 道 末 尾 
该 展示 哪些 产品 ， 详 息 番 匣 阁 效 是 否 该 放 在 调味 桨 区 域 ， 或 是 放 在 下 
西 哥 玉米 请 旁边 。 你 用 信用 卡 付款 。 学 习 算 法 会 同 你 发 送信 用 卡 文 付 
提示 ， 并 在 得 到 你 的 确认 后 完成 支付 。 男 外 一 个 算法 持续 寻找 可 疑 交 


易 ， 如 果 它 觉得 你 的 卡号 被 盗 ， 则 会 提示 你 。 还 有 一 种 算法 笑 试 评估 
你 对 这 张 卡 的 满意 度 ， 如 果 你 是 理想 的 客户 但 对 服务 不 太 满 意 ， 银 行 
会 在 你 决定 换 卡 之 前 ， 为 你 提供 更 贴心 的 服务 。 


你 回 到 家 ， 走 到 信箱 芝 ， 发 现 有 朋友 的 一 封 来 信 ， 这 年 通 过 能 阅 
读 手 写 地 址 的 学 习 算法 派送 的 。 当 然 也 会 有 垃圾 来 信 ， 由 另外 的 学 习 
算法 进行 选择 。 你 俘 留 了 一 会 儿 ， 呼 吸 夜 晚 清 新 状 亚 的 空气 。 你 所 在 
城市 的 犯罪 率 明显 下 降 了 ， 因 为 警察 开始 使 用 统计 算法 来 预测 哪里 的 
犯罪 率 最 高 ， 并 在 那里 集中 这 警力 量 。 你 和 家 人 共 至 晚餐 。 市 长 出 现 
在 新 闻 里 ， 你 为 他 投票 ， 因 为 选举 那天 ， 学 习 算 法 确定 你 为 “关键 未 投 
票选 民 ” 之 后 ， 他 杀 目 给 你 打 了 电话 。 吃 完 有 晚餐， 你 观看 球赛 ， 两 文 球 
队 都 借助 统计 学 习 来 挑选 队员 。 你 也 可 能 和 孩子 们 在 Xbox 上 玩 游 戏 ， 
Kinect 学 习 算法 确定 你 在 哪里 、 在 做 什么 。 你 在 睡 前 吃 药 ， 医 生 通 
过 学 习 算 法 的 辅助 来 设 定 和 检测 号 药 的 最 佳 时 间 。 医 生 也 可 能 利用 机 
志 学 习 来 帮 你 诊断 疾病 ， 例 如 ， 分 析 X 射 线 结 采 并 卉 明日 一 系列 非 正 
党 症状 。 


机 器 学 习 参 与 了 你 人 生 的 每 个 阶段 。 如 有 果 你 为 了 参加 SAT 大 学 入 
学 考试 《美国 学 术 能 力 评 估 测 试 ) 而 在 网 上 学 习 ， 某 学 习 算法 会 给 你 
的 练习 短文 打分 。 如 果 你 申请 商学 院 ， 且 最 近 要 参加 GMAT (经 企管 
理 研 究 生 入 学 考试 ) ， 其 中 的 一 个 文章 打分 工具 就 是 一 个 学 习 系 统 。 
可 能 当 你 求职 时 ， 某 学 习 算 法 会 从 虚拟 文件 中 挑选 出 你 的 简历 ， 并 告 
诉 未 来 的 雇主 : 这 位 是 很 不 错 的 人 选 ， 看 看 吧 。 最 近 公 司 给 你 加 薪 可 
能 还 多 亏 男 外 的 学 习 算 法 。 如 果 想 买 套 房子 ，Zillow.com 网 站 会 估算 
你 看 中 的 每 套房 的 价值 ， 接 着 房子 束 有 了 着 洲 。 之 后 申请 住房 借款， 
某 学 习 算 法 会 研究 你 的 申请 ， 并 建议 是 否 可 以 通过 申请 。 最 重要 的 
是 ， 如 有 果 你 使 用 在 线 约会 服务 ， 机 器 学 习 甚 至 可 能 帮 你 找到 人 生 切 
爱 。 


社会 在 不 断 变化 ， 学 习 算 法 也 是 如 此 。 机 器 学 习 正 在 重 塑 科 学 、 
技术 、 商 业 、 政 治 以 及 战争 。 卫 星 、DNA (脱氧 核糖 核酸 ) 测序 仪 以 
及 粒子 加 速 器 以 前 所 未 有 的 精细 程度 探索 自然 ， 同 时 ， 学 习 算 法 将 庞 
大 的 数据 转变 成 新 的 科学 知识 。 企 业 从 未 像 现 在 这 样 了 解 目 己 的 用 
户 。 在 美国 大 选中 ， 拥 有 最 佳 选 举 模型 的 候选 人 奥巴马 最 终 战 胜 了 对 
手 罗 姆 尼 ， 获 得 了 竞选 胜利 。 无 人 要 驶 汽车 、 轮 船 、 飞 机 分 别 在 陆 
地 、 海 面 、 至 中 进行 生产 前 测试 。 没 有 人 把 你 的 喜好 编 入 亚马逊 的 推 
存 系统 ， 学 习 算 法 通过 汇总 你 过 去 的 购买 经 历 融 能 确定 你 的 喜好 。 合 
歌 的 无 人 营 驶 汽车 通过 上 自学， 懂得 如 何在 公路 上 平稳 行驶 ， 没 有 哪个 
工程 师 会 编写 算法 ， 一 步 一 步 指导 它 该 上 怎么 走 、 如 何 从 A 地 a 到达 B 地 
这 也 没 必要 ， 因 为 配 有 学 习 算 法 的 汽车 能 通过 观察 司机 的 操作 来 
掌握 开车 技能 。 


机 器 学 习 是 “太阳 的 下 的 新 鲜 事 *”， 一 种 能 够 构建 目 我 的 拉 术 。 从 
远古 祖先 学 会 打磨 石头 开始 ， 人 类 就 一 直 在 设计 工具 ， 无 论 这 些 工 具 
征 手 工 完 成 的 ， 还 是 大 批量 生产 的 。 学 习 算 法 本 喘 也 属于 工具 ， 可 以 
用 它们 来 设计 其 他 工具 。* 计 算 机 晕 无 用 处 ，” 毕 加 索 说 , “它们 只 能 给 
你 提供 答案 。” 计 算 机 并 没有 创造 性 ， 它 们 只 能 做 你 让 它们 做 的 事 。 如 
果 你 告诉 它们 要 做 的 事 涉及 创造 力 ， 那 么 加 要 用 到 机 需 学 习 。 学 习 算 
法 咕 像 技 亏 精 省 的 工匠 ， 它 生产 的 每 个 产品 都 不 一 样 ， 而 且 专门 根据 
顾客 的 需要 精细 定制 。 但 是 不 像 把 石头 变 成 砖 、 把 金子 变 成 球 宇 ， 学 
习 算 法 古 把 数据 变 成 算法 。 它 们 掌握 的 数据 越 多 ， 算 法 也 束 越 精准 。 


现代 人 和 希望 让 世界 来 适应 目 己 ， 而 不 是 改变 目 己 来 适应 世界 。 机 
絮 学 习 是 100 万 年 传奇 中 最 新 的 篇 草 : 有 了 它 ， 不 费 吹 灰 之 力 ， 世 界 整 
能 感知 你 想 要 的 东西 ， 并 依 此 做 出 改变 。 就 像 身 处 魔法 林 ， 在 你 通过 
时 ， 周 围 的 环境 〈 今 天 虚拟 ， 明 天 现实 ) 会 进行 自我 重组 。 你 在 树木 
和 灌木 中 选 出 的 路 线 会 变 成 一 条 路 ， 迷 路 的 地 方 还 会 出 现 指 路 标志 。 


这 些 看 似 有 魔力 的 技术 十 分 有 用 ， 因 为 机 融 学 习 的 核心 就 是 预 
测 : 预测 我 们 想 要 什么 ， 预 测 我 们 行为 的 结 有 末 ， 预 测 如 何 能 实现 我 们 
的 目标 ， 预 测 世 界 将 如 何 改变 。 从 前 ， 我 们 依赖 恶 医 和 占卜 师 进 行 预 
测 ， 但 他 们 太 不 可 靠 ， 科 学 的 预测 束 更 值得 信赖 ， 但 也 仅 限 于 我 们 能 
系统 观察 和 易于 模仿 的 事物 ， 大 数据 和 机 才学 习 却 大 大 超出 这 个 范 
。 我们 可 通过 独立 的 思维 来 预测 一 些 常 见 的 事情 ， 包 括 接 球 和 与 人 
对 话 ， 但 有 些 事情 ， 即 便 我 们 很 努力 ， 也 无 法 预测 。 可 预测 与 难以 预 
测 之 加 的 巨大 鸿沟 ， 可 以 交 给 机 器 学 习 来 填补 。 


矛盾 的 是 ， 尽 管 学 习 算 法 在 自然 和 人 类 行为 领域 开 尽 了 新 天 地 ， 
但 它们 仍 第 罩 在 神秘 之 中 。 媒 体 每 天 都 报道 涉及 机 器 学 习 的 新 闻 : 苹 
果 公 司 发 布 Siri 个 人 助理 ，IBM( 人 国 沃 森 (IBM 的 超级 计算 机 ) 在 《危险 
边缘 》 游 戏 中 战胜 了 人 类 ， 塔 吉 特 (Target) 能 在 未 成 年 妈妈 的 父母 发 
现 之 前 通知 她 怀孕 ， 美 国 国家 安全 局 在 寻找 信息 连接 点 .…... 在 这 些 新 
闻 事件 中 ， 学 习 算 法 如 何 起 作用 仍 不 得 而 知 。 计 算 机 “ 知 入 ” 数 以 万 亿 
的 字 节 ， 并 神奇 地 产生 新 的 观点 ， 关 于 大 数据 的 书籍 甚至 也 避 谈 “这 个 
过 程 到 底 发 生 了 什么 ”。 我 们 一 般 认 为 学 习 算法 就 是 找到 两 个 事件 之 间 
的 联结 点 ， 例 如 ， 用 谷歌 搜索 “感冒 药 " 和 患 感冒 之 间 的 联系 。 然 而 ， 
寻找 联结 点 与 机 器 学 习 的 关系 就 像 是 砖 与 房子 的 关系 ， 房 子 是 由 砖 组 
成 的 ， 但 一 堆 砖 头 肯 定 不 能 称 之 为 “房子 ”。 


当 一 项 新 技术 同 机 器 学 习 一 样 流行 且 具 有 革命 性 时 ， 不 弄 明 日 其 
中 的 奥妙 实在 太 可 惜 。 模 校 两 可 会 导致 误差 和 滥用 。 亚 马 进 的 算法 能 
断定 当今 世界 人 们 在 读 什么 书 ， 这 一 点 比 谁 都 强 。 闫 国 国家 安全 局 的 
算法 能 断定 你 古 否 为 潜在 念 饰 分 子 。 气 候 模 型 可 以 判定 大 气 中 二 氧化 
矶 的 安全 水 平 。 选 股 模 型 比 我 们 当中 的 多 数 人 更 能 推动 经 济 发 展 。 你 
无 法 控制 目 己 理解 不 了 的 东西 ， 这 也 十 追 求 幸福 的 公民 、 专 家 或 普通 
人 需要 了 解 机 器 学 习 的 原因 。 


本 书 的 第 一 个 目标 就 是 揭示 机 器 学 习 的 秘密 。 只 有 工程 师 和 机 修 

工 有 必要 知道 汽车 发 动机 如 何 运 作 ， 但 每 位 司机 都 必须 明日 转动 方 癌 

二 会 改变 汽车 的 方向 、 踩 刹车 会 让 和 于 俘 下 。 当 今 极 少 有 人 知道 学 习 算 

法 对 应 的 原理 是 什么 ， 更 不 用 说 如 何 使 用 学 习 算 法 。 心 理学 家 丹 : 诺 曼 

(Don Norman) 创造 了 “概念 模型 ”(conceptual model) 这 个 新 词 ， 代 

指 为 了 有 效 利 用 某 项 技术 而 需 粗 略 掌 握 的 知识 。 本 书 束 将 介绍 机 器 学 
习 的 概念 模型 。 


并 不 是 所 有 算法 的 工作 原理 都 相同 ， 这 些 差 异 会 产生 不 同 的 结 
果 ， 比 如 亚马逊 和 网 飞 的 推荐 系统 。 假 设 这 两 个 系统 试 着 根 据 * 你 喜欢 
的 东西 ?来 对 你 进行 引导 ， 亚 马 逊 很 有 可 能 会 把 你 融 到 你 之 前 党 浏 贤 的 
书籍 类 别 ， 网 飞 则 可 能 会 把 你 市 到 你 不 熟悉 且 似 乎 有 点 奇怪 的 区 域 ， 
并 引导 你 爱 上 那里 。 在 本 书 当 中 ， 我 们 会 看 到 诸如 亚马逊 、 网 飞 之 类 
的 公司 使 用 的 各 式 各 样 的 算法 。 与 亚马逊 相 比 ， 网 飞 公 司 的 算法 对 你 
的 爱好 理解 得 更 深 〈 尽 管 还 是 很 有 限 ) ， 然 而 具有 讽刺 意味 的 是 ， 这 
并 非 意味 着 亚 咏 进 也 应 该 利用 这 个 算法 。 网 飞 的 丙 业 模式 是 依靠 星光 
的 电影 、 电 视 证 目的 长 尾 效应 来 推动 需求 ， 这 些 电影 和 市 目的 成 本 很 
低 。 它 一 般 不 推 基 大片， 因为 你 的 会 员 订 阅 费 可 能 有 限 。 亚 蕊 逊 则 没 
有 这 样 的 问题 ， 尺 管 擅长 利用 长 尾 效应 ， 但 它 同 样 乐 意 把 更 昂贵 的 热 
销 商 品 卖 给 你 ， 这 也 会 位 化 其 物流 工作 。 对 于 那些 奇怪 的 产品 ， 如 果 
古 订 阅 会 员 可 免费 至 用 的 ， 我 们 可 能 会 乐意 去 笑 试 ， 而 如 采 需 要 男 外 
掏 钱 ， 我 们 去 选择 它们 的 可 能 性 束 小 得 多 。 


每 年 都 会 出 现 上 百 种 新 的 算法 ， 但 它们 都 是 基于 几 个 相似 的 基本 
思路 。 为 了 明日 机 器 学 习 如 何 改变 世界 ， 你 有 必要 理解 这 些 思 路 。 本 
书 就 将 对 此 进行 介绍 。 学 习 算 法 并 不 是 那么 深奥 难 履 ， 除 了 运用 在 计 
算 机 上 ， 对 于 我 们 来 说 很 重要 的 问题 都 可 以 通过 学 习 算 法 找到 答案 ， 
比如 : 我 们 如 何 学 习 ? 有 没有 更 好 的 方法 ? 我 们 能 预测 什么 ? 我 们 能 
信任 所 学 的 知识 吗 ? 对 这 些 问 题 ， 机 器 学 习 的 各 个 学 派 有 不 同 的 管 


案 。 


机 器 学 习 主 要 有 5 个 学 派 ， 我 们 会 对 每 个 学 派 分 别 介 绍 : 符号 学 派 
将 学 习 看 作 逆 癌 演 绎 ， 并 从 哲学 、 心 理学 、 逻 辑 学 中 寻求 洞 见 ， 联 结 
学 派对 大 脑 进行 逆 同 分 析 ， 灵 感 来 源 于 神经 科学 和 物理 学 ， 进 化 学 派 
在 计算 机 上 模拟 进化 ， 并 利用 遗传 学 和 进化 生物 学 知识 ， 贝 叶 斯 学 派 
认为 学 习 是 一 种 概率 推理 形式 ， 理 论 根基 在 于 统计 学 ， 类 推 学 派 通 过 
对 相似 性 判断 的 外 推 来 进行 学 习 ， 并 受 心理 学 和 数学 最 优化 的 影响 。 
在 构建 机 器 学 习 的 目标 推动 下 ， 我 们 将 回顾 过 去 100 年 的 思想 史 ， 并 以 
新 的 观点 来 看 待 这 段 历 史 。 


机 器 学 习 的 5 个 学 派 都 有 自己 的 主 算法 ， 利 用 这 种 万 能 学 习 算 法 ， 
原则 上 ， 你 可 以 通过 任何 领域 的 数据 来 挖掘 知识 : 符号 学 派 的 主 算法 
征 阮 问 演 绎 ， 联 结 学 派 的 主 算法 是 反 回 传播 ， 进 化 学 派 的 主 算法 是 遗 
传 编程 ， 贝 叶 斯 学 派 的 主 算法 写 贝 时 斯 推理 ， 类 推 学 派 的 主 算法 是 文 
持 向 量 机 。 在 实践 中 ， 这 些 算法 可 能 在 有 些 工作 中 可 用 ， 而 在 其 他 工 
作 中 不 可 用 。 我 们 真正 想 要 导 找 的 是 能 够 综合 这 5 种 算法 的 终极 算法 。 
虽然 有 些 人 认为 这 难以 实现 ， 但 对 机 器 学 习 领 域 的 人 来 说 ， 这 个 梦想 
赋予 我 们 力量 ， 促 使 我 们 夜以继日 地 工作 。 


如 果 存 在 终极 算法 ， 那 么 它 可 以 通过 数据 学 得 包括 过 去 的 、 现 在 
的 以 及 未 来 的 所 有 知识 。 创 造 终极 算法 将 是 科学 历史 上 最 伟大 的 进步 
之 一 。 它 可 以 加 速 各 类 知识 的 进步 ， 并 以 我 们 现在 甚至 无 法 想象 的 方 
式 改变 世界 。 终 极 算 法 与 机 器 学 习 的 关系 束 像 标准 模型 和 粒子 物理 学 
或 中 心 法 则 与 分 子 生物 学 的 关系 : 该 统一 原理 能 理解 人 类 当今 知道 的 
一 切 ， 并 为 未 来 数 十 年 或 者 数 百 年 的 进步 黄 定 基础 。 今 天 我 们 面临 许 
多 难题 ， 比 如 制造 家 用 机 器 人 和 治愈 癌症 ， 终 极 算法 就 是 解决 这 些 难 
题 的 关键 。 


以 癌症 为 例 。 治 愈 况 症 十 分 困难 ， 因 为 它 往 往 是 一 种 综合 疾病 。 
肿瘤 可 由 各 种 原因 诱发 ， 且 在 转移 时 会 发 生 突变 。 杀 死 肿瘤 细胞 最 可 
靠 的 方法 是 对 其 基因 进行 排序 ， 和 卉 明日 哪些 药物 可 以 抵抗 癌 细 胞 (这 


种 方法 不 会 对 人 造成 伤害 ， 患 者 必须 提供 基因 和 用 药 史 ) ， 甚 至 为 你 
专门 研制 一 种 新 药 。 没 有 哪个 医生 能 够 掌握 该 过 程 所 需 的 所 有 知识 。 
对 于 机 需 学 习 来 说 ， 这 却 是 再 合适 不 过 的 任务 。 实 际 上 ， 与 亚马逊 和 
网 飞 每 天 所 做 的 搜索 工作 相 比 ， 它 的 工作 是 为 你 找到 正确 的 疗法 ， 而 
不 是 合适 的 书籍 或 者 电影 ， 而 且 它 的 工作 更 为 复兴， 也 更 具 挑 战 。 遗 
憾 的 古 ， 虽 然 当今 的 学 习 算 法 能 以 超出 人 类 水 平 的 精确 度 来 诊断 疾 
病 ， 但 治愈 癌症 仍 远 远 超出 它们 的 理解 范围 。 如 果 我 们 可 以 找到 终极 
算法 ， 这 将 不 再 是 难题 。 


因此 ， 本 书 的 第 二 个 目标 藉 是 帮 你 创造 终极 算法 。 你 可 能 会 认为 
这 需要 高 深 的 数学 运算 和 严谨 的 理论 方面 的 工作 ， 正 相反 ， 它 需要 和 暂 
时 放下 数学 奥秘 ， 来 观看 各 种 学 习 行为 包罗 万 象 的 模型 。 对 外 行人 来 
说 ， 他 们 就 像 从 远方 赶 到 终极 算法 这 片 森 林 ， 从 某 些 角 度 看 ， 他 们 比 
专家 更 适合 创造 终极 算法 ， 因 为 专家 对 某 些 学 科 已 经 过 于 投入 。 一 旦 
我 们 有 了 概念 性 的 解决 方法 ， 殊 能 补充 数学 上 的 细 市 ， 但 这 不 是 本 书 
的 目标 和 重点 。 我 们 之 所 以 谈论 每 个 学 派 ， 是 为 了 收集 它们 的 观点 ， 
并 找到 其 适用 之 处 。 请 记 住 ， 没 有 哪个 言 人 能 了 解 整 头 大 象 。 我 们 会 
尤其 关注 哪个 学 派 能 对 治疗 癌症 做 出 贡献， 也 关注 该 学 派 的 缺失 。 然 
后 ， 我 们 会 将 所 有 观点 集中 ， 一 步 步 地 变 成 解决 方案 一 一 这 个 解决 方 
案 可 能 还 不 是 终极 算法 ， 但 已 是 我 们 能 找到 的 最 接近 终极 算法 的 方 
案 。 项 望 它 能 解放 你 的 大 脑 ， 让 你 大 胆 想象 。 当 你 阅读 本 书 时 ， 如 琳 
觉得 某 些 草 世 读 起 来 困难 ， 可 以 随意 略 读 甚至 跳 过 它们 。 本 书 的 概要 
才 是 重 中 之 重 ， 当 明白 所 有 学 派 的 观点 之 后 ， 如 果 你 重读 那些 困难 的 
章 条 ， 收 获 可 能 会 比 之 前 更 多 。 


我 研究 机 器 学 习 已 经 有 20 余 年 了 。 我 对 机 器 学 习 的 兴趣 因 一 本 书 
而 起 ， 大 四 时 我 在 书店 看 到 这 本 书 名 很 奇怪 的 书 一 一 《人 工 知 能 》 
(Artificial Intelligenc) 。 那 本 书 只 有 一 个 章节 是 关于 机 器 学 习 的 ， 但 
读 那 个 章节 时 ， 我 立即 确定 ， 学 习 是 实现 人 工 智 能 的 关键 ， 而 且 当 时 
技术 水 平 如 此 原始 ， 我 也 许 能 做 点 什么 。 所 以 我 搁置 了 读 MBA (工商 


管理 硕士 ) 的 计划 ， 到 加 利 福 尼 亚 欧文 分 校 攻读 博士 。 机 器 学 习 当 时 
古 一 个 小 众 且 鲜 为 人 知 的 领域 ,人 研究 人 员 密 寥 无 几 ， 但 加 利 福 尼 亚 大 
学 却 拥 有 一 个 巨大 的 研究 团队 。 一 些 同学 中 途 放 弃 了 ， 因 为 他 们 看 不 
到 机 器 学 习 的 未 来 ， 而 我 坚持 了 下 来 。 对 我 来 说 ， 没 有 什么 能 比 教 计 
算 机 学 习 更 有 吸引 力 的 了 : 如 采 我 们 做 到 这 一 点 ， 其 他 问题 吏 会 迎 妖 
而 解 。5 年 后 我 毕业 了 ， 那 时 数据 挖掘 技术 十 分 流行 ， 我 开始 写 这 本 
书 。 我 的 博士 论文 结合 了 符号 学 派 和 类 推 学 派 的 观点 。 过 去 10 年 ， 我 
一 直 在 整合 符号 学 派 和 贝 叶 斯 学 派 的 观点 ， 最 近 又 在 符 试 整合 它们 与 
联结 学 派 的 观点 。 是 时 候 进 行 下 一 步 研 究 ， 并 笑 试 绪 合 这 5 个 范式 了 。 


写 这 本 书 时 ， 我 的 脑海 里 浮现 出 各 式 各 样 但 又 有 相似 之 处 的 读 


者 


围绕 大 数据 以 及 机 器 学 习 的 讨论 充满 和 争议， 如 果 你 对 此 感到 好 
柯 ， 且 怀疑 有 比 论文 上 看 到 的 更 为 深层 次 的 东西 ， 那 么 这 本 书 束 是 你 
进行 章 命 的 指南 。 


如 有 果 你 的 主要 兴趣 是 机 器 学 习 的 商业 用 途 ， 那 么 本 书 至 少 能 通过 6 
种 方法 帮助 你 ， 成 为 分 析 学 中 更 精明 的 消费 者 ， 充 分 利用 你 的 数据 专 
家 ; 减少 许多 数据 挖 气 项 目的 隐患 ， 看 看 如 有 果 不 飞 手写 编码 软件 ， 你 
能 让 什么 进行 目 动 操 作 ， 降 低 信息 系统 的 僵硬 度 ; 期 待 正 绷 你 走 来 的 
新 技术 。 我 见 过 太 多 浪费 大 量 时 间 和 人 金钱 去 解决 难题 的 人 ， 他 们 使 用 
了 错误 的 学 习 算法 ， 或 者 误解 了 学 习 算 法 的 合 义 。 要 避免 这 些 惨败 ， 
实际 上 ， 你 只 需要 阅读 这 本 书 。 


如 果 你 古 普 通 人 或 者 决策 者 ， 关 注 由 大 数据 和 机 器 学 习 引 发 的 社 
会 和 政治 问题 ， 那 么 本 书 将 为 你 提供 该 技术 的 入 门 知 识 : 什么 是 机 器 
学 习 ， 机 器 学 习 能 和 干什么、 不 能 干什么 。 本 书 没有 让 你 觉得 之 味 的 复 
杂 细 方 。 从 隐私 问题 到 未 来 的 工作 ， 以 及 机 器 人 化 引起 战争 的 道德 
观 ， 我 们 会 看 到 真正 的 问题 所 在 ， 以 及 如 何 正确 思考 。 


如 果 你 古 科学 家 或 者 工程 师 ， 那 么 机 器 学 习 肯 定 是 你 不 想 错过 的 
有 力 武器 。 在 大 数据 时 代 (即便 是 中 型 数据 时 代 ) ， 陈 旧 的 、 靠 得 住 
的 统计 工具 并 不 会 让 你 走 得 更 远 。 你 需要 的 是 机 融 学 习 的 非 线性 技术 
来 精确 模仿 多 种 现象 ， 它 会 市 来 全 新 的 、 科 学 的 世界 观 。 今 天 ,“ 范 式 
转移 ”被 人 们 用 得 过 于 随意 ， 但 我 可 以 盈 不 奔 张 地 说 ， 本 书 要 讲 的 内 容 
就 是 和 “范式 转移 ”相关 。 


如 条 你 是 机 融 学 习 专 家 ， 那 么 你 可 能 对 本 书 的 大 部 分 内 容 已 经 相 
当 熟 悉 ， 但 你 仍 会 发 现 其 中 有 许多 新 般 的 看 法 、 经 典 的 观点 ， 以 及 有 
用 的 例子 和 类 比 。 很 大 程度 上 ， 我 希望 本 书 能 提出 与 机 器 学 习 相 关 
的 、 新 的 看 法 ， 其 至 能 让 你 开始 思考 新 的 方 同 。 我 们 号 边 到 处 是 容易 
达成 的 目标 ， 我 们 理应 追寻 这 种 目标 ， 但 我 们 也 不 应 忽略 不 远 处 瓯 有 
更 大 的 目标 《关于 这 一 点 ， 我 布 望 你 们 能 原 访 我 诗意 地 用 “终极 算 
法 ”来 指 通用 型 学 习 算法 ) 。 


如 条 你 是 学 生 ， 无 论 你 多 大 ， 是 考虑 该 选 什 么 专业 的 高 中 生 ， 还 
是 决定 该 研究 什么 领域 的 本 科 生 ， 或 者 是 考虑 转行 、 经 验 丰 富 的 专 
家 ， 我 硕 望 本 书 能 让 你 对 这 个 令 人 着迷 的 领域 感 兴 趣 。 当 今世 界 极 度 
缺乏 机 器 学 习 专 家 ， 如 果 你 决定 加 入 这 一 行列 ， 你 不 仅 能 得 到 令 人 激 
动 的 时 刻 和 丰厚 的 物质 回报 ， 还 有 服务 社会 的 大 好 机 会 。 如 有 果 你 已 经 
在 研究 并 学 习 主 算法 ， 我 希望 本 书 能 帮 你 了 解 它 的 历史 。 如 采 你 在 旅 
途中 偶然 发 现 本 书 ， 也 值得 你 用 心 阅 读 。 


最 后 要 强调 一 点 ， 如 果 你 淘 望 奇迹 ， 那 么 机 器 学 习 对 你 来 说 束 古 
一 场 精 仲 盛事。 我 诚 击 地 邀请 你 一 同 前 往 。 


1. Kinect 是 微软 对 Xbox360 体 感 周边 外 设 正式 发 布 的 名 字 。 一 一 编者 注 
2. IBM， 国 际 商业 机 器 公司 。 编者 注 


第 一 章 
BR A | 
相 套 学 习 蛙 全 


我 们 生活 在 算法 的 时 代 。 一 两 代 人 以 前 ， 提 到 “算法 ”这 个 词 ， 可 
能 多 数 人 会 脑 中 一 片 空 日 。 当今 ， 文 明 社会 的 每 个 角落 都 存在 算法 ， 
日 第 生活 的 每 分 每 秒 也 都 和 算法 有 天。 算法 不 仅 存 在 于 你 的 手机 或 笔 
记 本 电脑 ， 还 存在 于 你 的 汽车 、 房 子 、 家 电 以 及 玩具 当中 。 当 人 们 进 
出 银行 时 ， 银 行 系统 就 古 由 各 种 算法 交织 而 成 的 庞大 集合 体 。 算 法 安 
排 航 班 ， 也 轰 驶 飞机 。 算 法 能 经 营 工 三、 进行 交易 、 运 输 货物 、 处 理 
现金 收益 ， 还 能 体 存 记录 。 如 有 果 所 有 算法 都 突然 集 止 运转 ， 那 么 整 是 
人 类 的 世界 末日 。 


算法 吏 是 一 系列 指令 ， 告 诉 计 算 机 该 做 什么 。 计算机 是 由 儿 十 亿 
个 微小 开关 〈 称 为 晶体 管 ) 组 成 的 ， 而 算法 能 在 一 秒 内 打开 并 关闭 这 
些 开 关 几 十 亿 次 。 最 简单 的 算法 是 触动 开关 。 一 个 晶体 管 的 状态 吏 是 
一 个 比特 信息 : 如果 开关 打开 ,信息 束 是 1;， 如 末 开 关 关 闭 ， 信 息 束 是 
0。 银 行 的 计算 机 的 某 个 比特 信息 会 显示 你 的 账户 是 否 已 透 文 。 美 国 社 
会 保障 总 署 的 计算 机 的 茶 个 比特 信息 表明 你 是 活着 还 是 已 死亡 。 第 二 
简单 的 算法 是 : 把 两 个 比特 结合 起 来 。 克 劳 德 :香农 以 “信息 论 之 父 ” 而 
为 人 所 知 ， 他 第 一 个 意识 到 晶体 管 的 活动 殉 是 在 运算 ， 因 为 品 体 管 开 
了 又 关 ， 征 对 其 他 晶体 管 的 回应 (这 是 他 在 麻 省 理工 学 院 的 硕士 论文 


有 史 以 来 最 有 意义 的 硕士 论文 ) 。 如 采 A 蝇 体 管 只 有 在 B 和 C 蝇 体 
管 都 打开 时 才 打 开 ， 那 么 这 时 它 束 是 在 做 小 型 的 逻辑 运算 。 如 果 人 A 蝇 
体 管 在 B 和 C 史 体 管 其 中 一 个 打开 时 才 打 开 ， 就 是 男 外 一 种 小 型 逻辑 运 
算 。 如 采 A 蝇 体 管 在 B 晶 体 管 任何 关闭 的 时 候 打 开 ， 或 者 反 过 来 ， 这 叉 
古 第 三 种 运算 。 信 不 信 由 你 ， 所 有 算法 ， 无 论 多 复 洒 ， 部 能 分 解 为 这 
三 种 逻辑 运算 : 且 ， 或， 非 。 利 用 不 同 的 符号 来 代 蔡 “ 且 ”% 或 * 非 ” 运 
算 ， 简 单 的 算法 束 可 以 用 图 表 来 表示 。 例 如 ， 如 采 发 烧 可 由 感冒 或 者 
拭 疾 引起 ， 那 么 你 应 该 用 泰 谤 来 治疗 发 烧 和 头疼 ， 可 以 用 图 1-1 表 示 。 


通过 结合 许多 这 样 的 逻辑 和 运算， 我 们 可 以 进行 极其 复杂 的 逻辑 推 
理 。 人 们 往往 认为 计算 机 只 和 数字 有 关 ， 其 实 并 非 如 此 ， 它 完全 关乎 
逻辑 。 数 字 和 算术 都 站 由 逻辑 构成 的 ， 而 计算 机 的 所 有 其 他 部 分 也 是 
如 此 。 想 把 两 个 数 相 加 ? 可 以 由 蝇 体 管 的 组 合体 来 完成 。 想 阅 得 《人 危 
险 边 缘 》 智 力 比赛 ” 也 可 以 由 晶体 管 的 组 合体 来 完成 (当然 ， 这 个 组 
合体 庞大 得 多 ) 。 


即便 如 此 ， 为 了 做 不 同 的 事 而 制造 新 的 计算 机 代价 过 于 昂 贯 。 当 
然 ， 现 代 计算 机 是 各 种 晶体 管 的 大 集合 ， 能 做 许多 不 同 的 事 ， 这 取决 
于 哪些 蝇 体 管 被 激活 。 米 开关 琪 罗 说 过 ， 他 所 做 的 一 切 ， 束 是 从 大 理 
石 石 块 中 看 出 雕像 ， 然 后 将 多 余 的 石 尖 刻 挥 ， 直 到 膨 像 的 形状 显现 出 
来 。 同 样 ， 算 法 排除 计算 机 中 多 余 的 晶体 管 ， 直 到 出 现 想 要 的 功能 ， 
无 论 是 客机 的 目 动 芝 驶 仪 ， 还 是 皮克斯 的 新 电影 ， 原 理 都 且 这 样 。 


一 种 算法 不 仅 是 简单 的 一 套 指 令 ， 这 些 指令 必须 精确 且 不 能 模 
糊 ， 这 样 计算 机 才能 够 执行 。 例 如 ， 食 谱 并 不 算 一 种 算法 ， 因 为 食谱 
没有 明确 给 出 做 事 的 顺序 ， 或 者 具体 每 一 步 是 怎 样 的 。 一 留 日 糖 到 底 
征 儿 死 ? 每 个 笑 试 新 食谱 的 人 都 知道 ， 跟 着 食谱 做 ， 可 能 会 做 出 很 闫 
味 的 食物 ， 也 可 能 会 做 得 一 塌 糊 涂 。 相 比 之 下 ， 算 法 总 能 得 出 同样 的 
结果。 即便 食谱 明确 指出 需要 半 惟 司 日 糖 ， 计 算 机 也 不 知道 如 何 执 
行 ， 因 为 计算 机 不 知道 什么 是 日 糖 、 什 么 是 番 司 。 如 采 我 们 想 对 言 用 
机 器 人 编程 ， 让 它 来 做 蛋 焙 ， 我 们 要 通过 视频 教 它 如 何 辨 认 日 糖 、 如 
何 拿 起 勺子 等 (我们 现在 仍 在 努力 ) 。 计 算 机 必须 知道 如 何 执行 算 
法 ， 直 到 打开 及 关闭 指定 的 品 体 管 。 因 此 ， 食 谱 离 算 法 还 很 远 。 


另 一 方面 ， 下 面 是 玩 井 字 棋 的 算法 : 


如 有 果 你 或 对 手 有 两 粒 连 子 ， 占 据 剩 下 的 角落 。 
人 否则， 如 果 两 边 有 两 个 连 子 的 走 法 ， 就 那样 走 。 
否则 ， 如 采 正 中 央 是 空 的 ， 走 正中 央 。 

否则 ， 如 有 果 你 的 对 手 走 到 角落 ， 占 据 他 的 对 角 。 
人 否则， 如 果 有 空白 的 角落 ， 占 据 它 。 

人 否则， 占据 任意 空 日 的 角落 。 


这 个 算法 有 很 大 的 优点 ， 那 就 是 它 绝 对 不 会 输 。 当 然 ， 它 仍 忽 略 
了 许多 细节， 比如 在 计算 机 的 记忆 中 ， 棋 盘 如 何 表示 ， 而 棋 的 走 法 又 
如 何 改变 这 种 表示 方法 。 例 如 ， 每 个 角落 我 们 有 两 个 比特 ， 如 采 中 间 
征 至 的 ， 值 号 是 00; 如 果 有 一 个 圈 ， 值 束 变 成 01; 如 采 有 一 个 又 ， 值 
束 变 成 10。 即 便 如 此 ， 这 也 足够 精确 、 清 晰 ， 能 让 有 能 力 的 编程 员 来 
填补 被 忽略 的 空 日 。 它 还 有 一 个 好 处 ， 区 3 是 不 用 我 们 目 己 指定 算法 ， 
细 到 单个 晶体 管 。 在 构建 数据 存储 块 时 ， 我 们 可 以 使 用 之 前 存在 的 算 
法 ， 而 且 有 很 多 这 样 的 算法 供 选择 。 


算法 古 一 套 闫 格 的 标准 。 人 们 常 襄 ， 你 没 法 真正 了 解 某 样 东西 ， 
直到 你 能 用 一 种 算法 来 将 其 表达 出 来 ( 理 查 德 : 费 曼 曾 说 , “如 果 我 无 
法 创造 某 样 东西 ， 那 么 也 就 无 法 理解 它 ”) 。 方 程式 对 物理 学 家 和 工程 
师 来 说 殉 是 谋生 工具 ， 而 这 也 仅仅 是 一 种 特殊 算法 。 例 如 ， 和 牛顿 第 二 
定律 ， 可 以 说 征 有 史 以 来 最 重要 的 等 式 ， 告 诉 你 用 物体 的 质量 乘 以 其 
加 速度 ， 可 以 算出 作用 在 物体 上 的 力 。 该 定律 还 隐 含 地 告诉 你 ， 加 速 
度 等 于 作用 力 除 以 质量 ， 要 弄 明日 这 一 点 ， 只 需 一 个 运算 步 又。 在 科 
学 的 任何 领域 ， 如 有 末 某 个 理论 无 法 用 算法 表示 ， 那 么 它 束 不 是 很 广 逐 
(更 别提 你 无 法 用 计算 机 来 解决 这 个 问题 ， 因 为 你 能 让 计算 机 替 你 做 
的 事实 在 太 有 限 ) 。 科 学 家 提出 理论 ， 工 程 师 制 造 设备 ， 计 算 机 科学 
家 提出 算法 ， 这 和 理论 及 设备 都 有 关 。 


设计 算法 并 没有 那么 简单 。 这 个 过 程 充满 陷阱 ， 什 么 事 都 不 能 想 
当然 。 如 采 你 的 一 些 构建 已 经 出 错 ， 束 得 找 其 他 方法 。 设 计算 法 最 重 
要 的 一 点 就 是 ， 你 得 用 一 种 计算 机 能 理解 的 语言 来 将 算法 记录 下 来 ， 
比如 Java 或 者 Python (从 这 个 角度 看 ， 就 是 一 个 程序 ) 。 接 下 来 ， 你 
得 对 其 进行 纠 错 ， 找 出 每 个 误差 并 修正 ， 直 到 计算 机 能 够 运行 程序 ， 
而 不 至 于 搞 砸 。 一 旦 你 有 了 能 完成 你 心愿 的 程序 ， 就 轻松 多 了 。 计 算 
机 会 以 飞快 的 速度 ， 按 我 们 的 要 求 办 事 ， 而 且 室 无 外 言 。 世 界 上 的 每 
个 人 都 能 吝 用 你 的 创作 成 采 。 如 采 你 愿意 ， 这 个 成 末 可 以 一 文 不 收 ; 
当然 ， 如果 你 解决 的 问题 足够 有 意义 ， 这 个 成 果 也 可 以 让 你 成 为 亿 万 
富翁 。 程 序 员 (创造 算法 并 将 其 编码 的 人 ) 是 一 个 “小 神灵 ”， 能 任意 
j 造 不 同 的 世界 。 甚 至 你 也 可 以 说 《圣经 . 创 世 记 》 里 的 神 也 是 “程序 
': 语言 (而 不 是 统治 权 ) 才 是 他 创造 世界 的 工具 。 语 言 构成 了 这 个 
界 。 当 今 时 代 ， 坐 在 沙发 上 利用 笔记 本 电脑 ， 你 就 可 以 成 为 一 
个 “ 神 ”。 你 完全 可 以 想象 一 个 世界 ， 并 实现 它 。 

有 朝 一 日 ， 计 算 机 科学 家 会 互相 依赖 各 目的 成 果 ， 然 后 为 新 事物 
创造 算法 。 这 些 算 法 会 与 其 他 算法 相 结合 ， 目 的 是 利用 其 他 算法 的 成 
果 ， 反 过 来 产生 能 服务 更 多 算法 的 成 果 。 每 一 秒 钟 ， 数 十 亿 计 算 机 里 
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的 数 十 亿 品 体 管 会 打开 关闭 数 十 亿 次 。 算 法 形成 新 型 生态 系统 ， 它 将 
生生 不 轧 ， 具 有 无 可 比拟 的 生命 多 样 性 。 


然而 ， 不 可 避免 地 ， 在 这 个 “伊甸园 ”里 也 会 有 狭 猎 的 人 存在 ， 人 
们 称 之 为 “复杂 性 怪兽 ”。 和 九 头 蛇 一 样 ， 这 个 复杂 性 怪兽 有 很 多 头 ， 
其 中 一 个 就 古 空间 复杂 性 ， 即 为 了 储存 在 计算 机 内 存 中 ， 一 个 算法 所 
需 信息 的 比特 数量 。 如 有 果 计 算 机 无 法 提供 该 算法 所 需 的 内 存 ， 那 么 这 
个 算法 就 没 用 ， 必 须 名 略 。 接 着 古 邪 屎 的 同类 一 一 时 间 复 洒 性 ， 该 算 
法 运行 多 长 时 间 ， 也 就 是 说 ， 在 产生 想 要 的 结果 之 前 ， 算 法 利用 及 重 
新 利用 铝 体 管 的 步骤 有 多 少 。 如 采 算 法 运行 时 间 太 入， 我 们 等 不 了 ， 
那么 这 个 算法 也 没 用 。 复 杂 怪 兽 最 加 怖 的 一 面 束 是 人 类 的 复杂 性 。 当 
算法 变 得 很 复杂 以 致 人 类 大 脑 已 无 法 理解 ， 当 算法 不 同 部 分 的 交互 过 
多 且 过 于 深入 时 ， 误 孝 驶 会 悄然 潜入 。 我 们 找 不 到 这 些 误 佐 ， 也 了 束 无 
法 纠正 它们 ， 算 法 也 惑 不 会 做 我 们 想 做 的 事 。 即 便 我 们 让 它 运 行 起 
来 ， 它 也 会 停 下 来 。 对 使 用 它 的 人 来 说 ， 它 没 必 要 那么 复杂 ， 而 且 它 
和 其 他 算法 也 合作 得 不 好 ， 这 为 日 后 埋 下 隐患 。 


每 位 计算 机 科学 家 每 天 都 在 和 “复杂 性 怪兽 ”做 斗争 。 如 采 科 学 家 
输 了 这 场 斗 争 ， 复 灯 性 束 会 渗入 我 们 的 生活 。 你 可 能 已 经 注意 到 ， 很 
多 这 样 的 斗争 科学 家 已 经 输 了 。 即 便 如 此 ， 我 们 也 会 继续 构建 我 们 的 
算法 之 塔 ， 并 迎接 越 来 越 大 的 挑战 。 每 一 代 新 的 算法 都 要 在 之 前 的 基 
础 上 构建 ， 除 了 这 代 算 法 的 复杂 性 ， 它 们 还 面临 之 前 算法 的 复杂 性 。 
塔 会 变 得 越 来 越 高 ， 会 履 凋 整个 世界 ， 但 它 也 会 变 得 越 来 越 脆 弱 ， 像 
一 座 纸 片 做 的 房子 ， 随 时 都 会 倒塌 。 算 法 里 的 微小 误差 可 能 导致 价值 
10 亿 美元 的 火箭 爆炸 ， 或 者 可 能 导致 停电 ， 造 成 数 百 万 美元 的 损失 。 
算法 以 意 想 不 到 的 方式 进行 交互 ， 股 票 市 场 现 会 般 溃 。 


如 时 程序 员 是 “小 神 ”， 复 杂 性 怪 和 四 就 是 魔 有 时。. 
得 战争 。 


总 得 有 个 更 好 的 方法 来 与 魔 风 做 斗争 。 


一 一 一 


受 慢 地 ， 魔 帮会 属 


学 习 算 法 入 门 


每 个 算法 都 会 有 输入 和 输出 : 数据 输入 计算 机 ， 算 法 会 利用 数据 
完成 接 下 来 的 事 ， 然 后 结 采 可 出 来 了 。 机 器 学 习 则 颠倒 了 这 个 顺序 : 
输入 数据 和 想 要 的 结果 ， 输 出 的 则 古 算 法 ， 即 把 数据 转换 成 结 采 的 算 
法 。 学 习 算 法 能 够 制作 其 他 算法 。 通 过 机 器 学 习 ， 计 算 机 就 会 自己 编 
写 程序 ， 殊 用 不 到 我 们 了 。 


哇 ! 


计算 机 会 目 己 编写 程序 。 现 在 看 来 这 是 一 个 强大 的 想法 ， 甚 至 可 
能 有 点 吓人 。 如 果 计 算 机 开始 目 己 编程 ， 那 么 我 们 将 如 何 控制 它们 ? 
我 们 会 看 到 ， 人 类 可 以 很 好 地 控制 它们 。 可 能 会 有 人 当即 反对 ， 这 上 听 
起 来 太美 好 了 ， 不 像 真 的 。 当 然 ， 编 写 算法 需要 智力 、 创 造 力 、 问 题 
解决 能 力 ， 这 些 都 是 计算 机 没有 的 。 如 何 把 机 右 学 习 与 魔法 区 分 开 
来 ? 的 确 , 今天 为 止 ， 人们 能 编写 许多 计算 机 无 法 学 习 的 程序 。 可 令 
人 更 为 惊讶 的 是 ， 计 算 机 却 能 学 习 人 们 无 法 编写 出 来 的 程序 。 我 们 会 
开车 、 会 辨认 字迹 ， 但 这 些 技能 都 是 潜意识 发 挥 出 来 的 ， 无 法 同 计算 
机 解释 这 些 事情 是 如 何 完成 的 。 但 是 ， 如 果 我 们 把 关于 这 些 事情 的 足 
够 多 的 例子 交 给 学 习 算 法 ， 该 算法 会 很 乐意 弄 明 日 怎样 独立 完成 这 些 
事情 ， 这 时 我 们 就 可 以 放手 让 算法 去 做 了 。 邮 局 正 是 通过 这 种 方法 来 
识别 邮政 编码 ， 目 动 当 驶 汽车 也 是 这 样 才 得 以 实现 在 路 上 跑 。 


解释 机 顺 学 习 的 力量 的 最 好 方法 ， 也 许 束 是 将 其 与 其 他 低 扩 术 侣 
量 的 活动 进行 类 比 。 工 业 社会 ， 商 品 由 工厂 制造 ， 这 也 意味 着 工程 师 
必须 弄 明 日 商品 如 何 通过 零件 组 狐 起 来 、 这 些 零 件 如 何 生 产 等 ， 细 到 
生产 原料 。 这 是 一 项 大 工程 。 计 算 机 是 人 类 发 明 的 最 复杂 的 产品 ， 计 
算 机 设计 、 工 厂 生 产 、 程 序 运 行者 涉及 大 量 的 工作 。 还 有 男 外 一 种 方 
法 能 让 我 们 得 到 一 些 想 要 的 东西 :让 自然 规律 去 塑造 它们 。 在 农业 当 
中 ， 我 们 播种 ， 确 保 种 子 有 足够 的 水 分 和 营养 ， 然 后 收割 成 熟 的 作 


物 。 为 什么 技术 不 能 这 样 ? 完全 可 以 ， 而 这 也 是 机 需 学 习 的 承 庄 。 学 
习 算法 是 种 子 ， 数 据 是 土壤 ， 被 掌握 的 程序 古 成 熟 的 作物 。 机 器 学 习 
专家 忠 像 农民 ， 播 下 种 子 ， 灌 溉 ， 施 肥 ， 留 意 作 物 的 生长 状况 ， 事 事 
亲 力 薪 为 ， 而 不 古 退 居 一 旁 。 

一 旦 我 们 这 样 看 得 机 器 学 习 ， 随 即 也 会 发 生 两 件 事 : 

第 一 ， 我 们 掌握 的 数据 越 多 ， 我 们 能 学 的 也 越 多 。 没 有 数据 ? 什 
么 也 学 不 到 。 大 数据 ? 很 多 东西 可 以 学 习 。 这 也 是 机 右 学 习 无 处 不 在 


的 原因 ， 因 为 有 飞速 增长 的 数据 。 如 果 你 在 超市 购买 机 器 学 习 ， 其 包 
闭 上 可 能 会 写 着 “只 需 添加 数据 ”。 


第 二 ， 机 器 学 习 是 一 把 证， 利用 这 把 剑 可 以 杀 死 复 洒 性 怪 胃 。 只 
要 有 足够 的 数据 ， 一 段 只 有 几 百 行 代码 的 程序 可 以 轻易 生成 拥有 上 百 
万 行 代码 的 程序 ， 而 且 它 可 以 为 解决 不 同 问题 不 停产 生 不 同 的 程序 。 
这 可 以 显著 降低 程序 员工 作 的 复杂 度 。 当 然 ， 束 像 对 付 九 头 蛇 ， 我 们 
砍 挥 它 的 头 ， 会 立即 长 出 新 头 ， 但 长 出 的 头 会 变 小 ， 而 且 头 的 生长 也 
需要 时 间 ， 因 此 我 们 仍 有 可 能 胜出 。 


我 们 可 以 把 机 需 学 习 当 作 逆 运算 ， 正 如 开平 方 是 平方 的 乾 运 算 、 
整合 是 分 化 的 敢 运 算 。 正 如 我 们 会 问 “ 什 么 数 的 平方 是 16”"， 或 者 “导数 
为 x+1 的 函数 是 什么 ”， 我 们 也 会 问 “ 什 么 算法 会 得 出 该 结 采 ”。 我 们 很 
快 会 看 到 ， 怎 样 将 这 个 观点 运用 到 具体 的 学 习 算 法 中 。 


有 些 学 习 算 法 学 习 知 识 ， 有 的 则 学 习 技 能 。“ 所 有 人 都 会 死 " 是 知 
识 ， 对 单 车 是 技能 。 在 机 器 学 习 中 ， 知 识 往 往 以 统计 模型 的 形式 出 
现 ， 因 为 多 数 知识 部 是 可 以 统计 的 ， 所 有 人 都 会 死 ， 但 只 有 4% 是 美国 
人 。 技 能 往往 以 程序 的 形式 出 现 ， 如 有 果 马 路 同 左 弯曲 ， 那 么 同 左 转动 
车 头 ;， 如 果 一 只 鹿 跳 到 你 面前 ， 那 么 立刻 刹车 (很 遗憾， 在 写 这 本 书 
时 ， 合 歌 的 目 动 萄 驶 汽车 仍 会 把 被 风 吹 起 的 塑料 袋 和 讨 弄 混 ) 。 通 
常 ， 这 些 程序 都 很 简单 ， 复 杂 的 是 它们 的 核心 知识 。 如 采 你 能 判断 哪 


些 邮 件 十 垃圾 邮件 ， 那 么 你 也 束 能 判断 该 删除 哪些 邮件 。 如 采 你 能 在 
象棋 游戏 中 判断 这 副 棋 目 己 的 优势 在 哪里 ， 那 么 你 也 束 复 得 该 怎么 走 
(能 让 你 处 于 最 有 利 地 位 的 一 步 ) 。 


机 器 学 习 有 许多 不 同 的 形式 ， 也 会 涉及 许多 不 同 的 名 字 : 模式 识 
别 、 统 计 建 模 、 数 据 控 据 、 知 识 发 现 、 预 测 分 析 、 数 据 科 学 、 适 应 系 
统 、 目 组 织 系统 等 。 这 些 概 念 供 不 同 群体 使 用 ， 拥 有 不 同 的 联系 。 有 
些 有 很 长 的 半 襄 期 ， 有 些 则 较 短 。 在 本 书 中 ， 我 用 “机 需 学 习 "一 词 泛 
指 所 有 这 些 概念 。 


机 巍 学 习 有 时 会 和 人 工 智 能 (AI) 混 消 。 严 格 来 讲 ， 机 器 学 习 是 
人 工 智能 的 子 域 ,但 机 器 学 习 发 展 得 如 此 壮大 且 成 功 ， 现 已 超越 以 前 
它 引 以 为 傲 的 母 领域 。 人 工 闹 能 的 目标 是 教会 计算 机 完成 现在 人 类 做 
得 更 好 的 事 ， 而 机 器 学 习 可 以 说 束 古 其 中 最 重要 的 事 : 没有 学 习 ， 计 
算 机 就 永远 无 法 跟 上 人 类 的 步伐 ， 有 了 学 习 ， 一 切 部 与 时 俱 进 。 


在 信息 处 理 这 个 生态 系统 中 ， 学 习 算法 是 顶级 掠 食 者 。 数 据 库 、 
网 络 仆 虫 、 索 引 右 等 相当 于 食 草 动物 ， 耐 心地 对 无 限 领 域 中 的 数据 进 
行 蚕食 。 统 计算 法 、 线 上 分 析 处 理 等 则 相当 于 食肉 动物 。 食 草 动物 有 
必要 存在 ， 因 为 没有 它们 ， 其 他 动物 无 法 存活 ， 但 顶级 拯 食 者 有 更 为 
刺激 的 生活 。 数 据 候 虫 束 像 一 头 牛 ， 网 页 相当 于 它 的 草原 ， 每 个 网 页 
忠 是 一 根 草 。 当 网 络 仆 虫 进行 破坏 行动 时 ， 网 站 的 副本 丈 会 保存 在 其 
硬盘 当中 。 索 引 需 接着 做 一 个 页 面 的 列表 ， 每 个 词 都 会 出 现在 页 面 当 
中 ， 这 很 像 一 本 书后 的 索引 。 数 据 库 束 像 大 象 ， 又 大 双重， 永远 不 会 
被 忽略 。 在 这 些 动物 当中 ， 耐 心 的 野兽 飞快 运转 统计 和 分 析 算 法 ， 压 
缩 并 进行 选择 ， 将 数据 变 为 信息 。 学 习 算 法 将 这 些 信息 否 下 、 消 化 ， 
然后 将 其 变 成 知识 。 

机 器 学 习 专 家 在 计算 机 科学 家 中 束 是 一 种 精英 式 的 “神职 ”。 许 多 
计算 机 科学 家 ， 尤 其 是 更 老 的 那 一 代 ， 并 不 如 他 们 想 的 那样 能 很 好 地 
理解 机 器 学 习 。 这 是 因为 ， 计 算 机 科学 通常 需要 的 是 准确 思维 ,但 机 


右 学 习 需 要 的 是 统计 思维 。 例 如 ， 如 果 有 条 规定 是 “垃圾 邮件 标记 的 正 
确 率 征 999%”， 这 并 不 意味 存在 缺陷 ， 而 可 能 意味 这 是 你 的 最 好 水 平 ， 
已 经 很 好 用 了 。 这 种 思维 上 的 差别 很 大 程度 上 也 解释 了 为 什么 微软 能 
赶 上 网 景 公司 ,但 想 赶 上 合 歌 却 困难 得 多 。 说 到 确 ， 浏 览 絮 只 是 一 个 
标准 的 软件 ， 而 搜索 引擎 则 需要 不 同 的 思维 模式 。 


之 所 以 说 机 器 学 习 研 究 者 是 超级 计算 机 迷 的 另外 一 个 原因 ， 就 是 
当今 世界 急需 他 们 ， 但 他 们 究 究 无 几 。 按 照 计 算 机 科学 三 格 的 标准 ， 
这 样 的 人 数量 束 更 少 了 。 带 姆 : 奥 羔 利 认 为 ，“ 数 据 科 学 家 ”古人 硅谷 最 热 
1 门 的 职业 。 根 据 麦 肯 锡 全 球 人 研究 院 估 计 ， 截 至 2018 年 ， 仪 美国 束 需 要 
再 培养 14 万 ~19 万 机 虽 学 习 专 家 才 够 用 ， 男 外 还 需要 150 万 有 数据 头脑 
的 经 理 。 机 器 学 习 的 应 用 爆发 得 如 此 突然 ， 连 教育 都 无 法 跟 上 其 步 
伐 ， 同 时 ， 人 才 奇 缺 也 是 因为 这 | 学 科 在 人 们 看 来 很 难 而 令 人 户 而 生 
若 。 教 科 书 很 可 能 会 让 你 感到 数学 很 难 ， 然 而 ， 这 个 困难 表面 看 起 来 
很 大 ， 其 实 并 不 是 。 机 器 学 习 所 有 的 重要 观点 可 以 不 用 通过 数学 表示 
出 来 。 当 你 读 这 本 书 时 ， 甚 至 可 能 会 发 现 ， 你 发 明了 目 己 的 学 习 算 
法 ， 而 且 看 不 到 一 个 方程 式 的 影子 。 


工业 革命 使 手工 业 目 动 化 ， 信 息 章 命 解放 了 脑力 劳动 ， 而 机 器 学 
习 则 使 目 动 化 本 里 目 动 化 。 没 有 机 器 学 习 ， 程 序 员 会 成 为 阻 找 进 步 的 
障碍 。 有 了 机 器 学 习 ， 进 步 的 步伐 束 会 加 快 。 如 末 你 是 一 个 懒惰 叉 不 
那么 聪明 的 计算 机 科学 家 ， 机 硕 学 习 吏 是 理想 的 职业 ， 因 为 学 习 算 法 
会 完成 所 有 事情 ， 功 劳 却 是 你 的 。 从 男 一 方面 讲 ， 学 习 算 法 会 让 我 们 
失业 ， 这 也 只 是 我 们 应 受 的 您 入 。 

将 目 动 化 市 入 新 的 高 度 ， 机 器 学 习 章 命 会 市 来 广泛 的 经 济 及 社会 
变 草 ， 正 如 互联 网 、 个 人 计算 机 、 汽 车 以 及 蒸汽 机 在 当时 对 社会 和 经 
济 的 影响 那样 。 这 些 变 革 已 经 明显 存在 的 领域 就 古 商 业 。 


为 何 商 业 拥护 机 器 学 习 


为 什么 谷歌 比 雅虎 要 有 价值 得 多 ? 它们 都 是 用 户 登 录 最 多 的 网 
站 ， 都 靠 在 网 页 上 登 广 告 赚钱 。 它 们 都 用 担 卖 的 方式 销售 广告 ， 用 机 
器 学 习 来 预测 用 户 点 击 某 广告 的 概率 (概率 越 大 ， 广 告 价值 越 大 ) ， 
但 谷歌 的 机 融 学 习 束 比 雅虎 要 好 很 多 。 这 不 是 它们 市 场 价值 差异 巨大 
的 唯一 原因 ， 却 是 主要 原因 。 如 有 果 没 有 达到 预测 的 点 击 量 ， 对 广告 商 
来 说 束 是 浪费 机 会 ， 对 网 站 来 说 古 收 益 损 失 。 合 歌 每 年 的 收入 古 500 亿 
美元 ， 预 测 点 击 率 每 上 升 1%， 束 可 能 意味 着 每 年 为 公司 市 来 额外 5 亿 
美元 的 收入 。 难 怪 谷歌 古 机 器 学 习 的 铁杆 粉 缘 ， 雅 虎 和 其 他 公司 也 在 
奋起 直 追 。 


网 络 营 销 仅 仅 是 巨大 变革 中 的 一 种 表现 形式 。 无 论 什么 市 场 ， 生 
产 商 和 用 户 在 交易 发 生 之 前 ， 都 需要 进行 联系 。 在 互联 网 出 现 之 前 ， 
交易 的 主要 障碍 束 是 实地 交易 。 你 只 能 从 当地 的 书店 购买 书籍 ， 而 当 
地 书店 的 书架 空间 又 有 限 。 但 当 你 可 以 随时 把 所 有 书 下 载 到 电子 阅读 
郁 时 ， 问 题 就 变 成 了 可 供 选 择 的 书 太 多 。 你 怎么 浏览 书店 里 上 百 万 不 
同名 字 的 书 ? 同样 的 问题 也 出 现在 其 他 信息 产品 当中 : 视频 、 音 乐 、 
新 闻 、 推 特 文 章 、 博 客 、 网 页 。 这 个 问题 还 会 出 现在 能 够 远程 购买 的 
产品 和 服务 当中 : 鞋子 、 鲜 伦 、 小 配件 、 酒 店 房间 、 辅 导 、 投 资 。 人 
们 在 找 工 作 或 挑 日 子 时 ， 也 会 遇 到 选择 过 多 的 问题 。 你 们 如 何 找到 彼 
此 ? 这 征 信 息 时 代 的 定义 问题 ， 而 机 需 学 习 承 是 问题 解决 方案 的 主要 


部 分 。 
当 公司 不 断 发 展 壮大 后 ， 它 会 经 历 三 个 阶段 


第 一 阶段 的 所 有 事 都 由 人 工 完 成 一 一 夫妻 店 的 店主 亲 目 了 解 其 磊 
客 ， 他 们 依照 顾客 类 型 订购 、 展 示 、 推 荐 产品 。 这 很 不 错 ， 但 规模 不 
大 。 


第 二 阶段 症 最 圣 苗 的 时 期 ， 公 司 变 得 越 来 越 大 ， 需 要 用 到 计算 
机 。 公 司 招来 程序 员 、 顾 问 ， 习 来 数据 库 管 理 器 ， 程 序 员 编 写 了 成 百 
万 行 的 代码 来 使 公司 所 有 人 能 目 动 化 的 功能 目 动 化 。 更 多 的 人 至 受到 服 
务 ， 但 也 有 麻烦 : 决定 是 在 粗略 的 人 口 统计 类 别 的 基础 上 做 出 来 的 ， 
计算 机 程序 也 过 于 死板 ， 无 法 与 人 类 无 限 的 才能 相 匹配 。 


经 过 一 段 时 间 进入 第 三 阶段 ， 没 有 足够 的 程序 员 和 顾问 满足 公司 
的 需要 ， 因 此 公司 不 可 避免 地 辐 机 融 学 习 导 求 帮助 。 亚 马 逊 无 法 通过 
计算 机 程序 将 所 有 用 户 的 喜好 熟练 地 进行 编码 ， 脸 书 也 不 知道 如 何 编 
写 这 样 的 程序 ， 能 选择 最 好 的 更 新 内 容 展 示 给 每 位 用 户 。 沃 尔 玛 每 天 
销售 百 万 件 商 品 ， 还 要 做 数 十 亿 个 选择 。 如 采 沃 尔 玛 的 程序 员 努 力 编 
写 出 能 够 做 所 有 选择 的 程序 ， 这 些 选择 束 不 用 人 来 做 了 。 相 反 ， 这 些 
公司 所 做 的 工作 十 ， 它 们 在 收集 到 如 山 的 数据 后 ， 让 学 习 算 法 尽情 学 
习 ， 然 后 预测 顾客 想 要 什么 产品 。 


学 习 算 法 就 是 “媒人 ”它们 让 生产 商 和 顾客 找到 对 方 ， 元 服 信 息 
过 载 。 如 有 宁 这 些 算法 足够 智能 ， 你 束 能 取得 两 全 其 糯 的 结果 : 从 宏观 
来 讲 ， 选 择 广 、 成 本 低 ; 从 微观 来 讲 ， 能 够 了 解 顾客 的 个 性 化 需求 。 
学 习 算 法 并 不 是 完 类 的 ， 决 定 的 最 后 一 步 通 第 还 得 由 人 来 做 ,但 学 习 
算法 很 智能 ， 为 人 们 减少 了 需要 做 的 选择 。 


回顾 过 去 ， 我 们 看 到 ， 从 计算 机 到 互联 网 再 到 机 器 学 习 的 进步 古 
必然 的 : 计算 机 使 互联 网 成 为 可 能 ， 这 个 过 程 产生 大 量 数据 以 及 无 限 
选择 这 个 问题 。 单 单 互联 网 还 不 足以 把 “一 个 尺寸 满足 所 有 ”的 需求 转 
回 追 求 无 限 多 样 化 的 长 尾 效应 。 网 飞 公 司 的 库存 里 可 能 有 10 万 种 不 同 
名 字 的 DVD (数字 多 功能 光盘 ) ， 但 如 采 顾 客 不 懂得 如 何 找 到 自己 言 
欢 的 ， 他 们 整 会 默认 选择 最 流行 的 DVD。 只 有 网 飞 公司 有 了 学 习 算 法 
之 后 ， 才 能 帮助 它 了 解 顾客 的 喜好 ， 并 推荐 DVD， 长 尾 效 应 也 才 得 以 
真正 实现 。 


一 旦 必然 的 事情 发 生 ， 机 器 学 习 成 为 媒介 ， 那 么 其 力量 也 开始 慢 
慢 积聚 。 合 歌 的 算法 很 大 程度 上 决定 你 会 找到 什么 信息 ， 亚 蕊 进 决定 
你 会 买 到 什么 产品 ， 全 球 最 大 的 婚恋 网 站 默契 网 (Match.com) 决定 你 
的 约会 对 象 是 谁 。 最 好 的 选择 权 仍 在 你 手 里 一 一 从 算法 给 你 展示 的 所 
有 选项 中 挑选 ， 但 99.9% 的 选择 由 算法 做 出 。 当 下 ， 一 家 公司 的 成 败 
取决 于 学 习 算 法 对 其 产品 的 喜爱 程度 ， 而 整个 经 济 体 的 成 功 一 一 是 否 
每 个 人 都 能 得 到 目 己 需要 的 物美 价 廉 的 产品 ， 则 取决 于 学 习 算 法 的 好 
用 程度 。 


公司 确保 学 习 算法 言 爱 其 产品 的 最 佳 方法 就 是 ， 让 公司 目 己 运 行 
算法 。 谁 有 最 佳 算法 、 数 据 最 多 ， 谁 束 能 说。 新 型 网 络 效 应 占据 上 
风 : 谁 有 最 多 的 用 户 ， 谁 吏 能 积 素 最 多 的 数据 ， 谁 有 最 多 的 数据 ， 谁 
忠 能 学 到 最 好 的 模型 ， 谁 学 到 最 好 的 模型 ， 谁 束 能 吸引 最 多 的 用 户 ， 
这 是 一 种 民 性 循环 (如果 你 在 竞争 ， 束 会 变 成 恶性 循环 ) 。 把 搜索 引 
擎 从 谷歌 转换 到 必 应 ， 可 能 会 比 把 应 用 系统 从 Windows 切 换 到 Mac 要 
简单 ， 但 在 实际 操作 中 ， 你 不 会 这 么 做 ， 因 为 谷歌 拥有 领先 优势 及 更 
大 的 市 场 份额 ， 比 必 应 更 懂得 你 想 要 什么 ， 虽然 必 应 的 技术 也 不 错 。 
可 惜 的 是 ， 必 应 刚 进 入 搜索 行业 ， 没 有 什么 数据 资源 ， 而 谷歌 却 拥有 
十 余年 的 机 器 学 习 经 验 。 


你 可 能 会 认为 ， 过 一 段 时 间 ， 更 多 的 数据 结果 意味 着 更 多 的 重 
复 ， 但 数据 的 饱和 点 还 未 出 现 ， 长 尾 效应 持续 起 作用 。 如 采 你 看 亚 马 
还 或 网 飞 公 司 为 你 提供 的 推荐 产品 ， 很 明显 ， 这 些 推 荐 项 仍 很 粗略 ， 
而 谷歌 的 搜索 结果 也 有 很 大 的 优化 空间 。 每 个 产品 的 特性 、 网 页 的 每 
个 角落 都 有 很 大 的 潜力 ， 能 通过 机 器 学 习 得 到 改 矢 。 网 页 底部 的 链接 
应 该 是 红色 的 还 古 监 色 的 ? 两 个 颜色 都 斌 起， 看 看 哪个 颜色 的 点 击 率 
会 更 高 。 还 有 ， 最 好 让 机 器 学 习 持续 运行 ， 不 断 调整 网 页 的 所 有 方 
面 。 


所 有 拥有 众多 选择 和 大 量 数 据 的 市 场 都 会 发 生 这 样 的 动态 循环 。 
比赛 正在 进行 ， 谁 学 得 最 快 ， 谁 束 电 了 。 随 着 越 来 越 好 地 了 解 用 户 需 
求 ， 这 个 比赛 不 会 停止 : 企业 可 以 将 机 器 学 习 应 用 到 企业 运作 的 每 个 
方面 ， 只 要 有 足够 的 数据 ， 只 要 数据 能 够 从 计算 机 、 通 信 设 备 以 及 更 
廉价 、 更 普 适 的 传 感 融 源源 不 断 地 输出 。“ 数 据 是 新 型 石油 ”是 目前 的 
流行 六 法， 既然 征 石油 ， 提 炼 石油 束 是 一 笔 大 生意 。 和 其 他 公司 一 
样 ，IBM 已 制定 经 济 增长 战略 ， 为 企业 提供 分 析 服 务 。 业界 将 数据 看 
作战 略 资产 : 我 有 什么 数据 ， 而 竞 搜 对 手 却 没有 ? 我 要 怎么 利用 这 些 
数据 ? 苋 争 对 手 有 什么 数据 ， 而 我 却 没有 ? 


同样 的 道理 ， 没 有 数据 库 的 银行 无 法 和 有 数据 库 的 银行 竞争 ， 没 
有 机 需 学 习 的 企业 也 无 法 跟 上 使 用 机 器 学 习 的 企业 。 虽 然 第 一 家 公司 
的 专家 写 了 上 千 条 规则 ， 预 测 用 户 的 喜好 ， 但 是 第 二 家 公司 的 算法 却 
能 学 习 数 十 亿 条 规则 ， 一 整套 规则 都 可 用 于 每 位 用 户 。 这 束 相 当 于 长 
予 对 机 关 枪 。 机 器 学 习 是 很 棱 的 新 技术 ， 但 这 并 不 是 商业 界 拥护 它 的 
原因 一 一 人 们 之 所 以 拥护 它 ， 征 因为 别 无 选择 。 


给 科学 方法 增 压 


机 器 学 习 是 “ 打 了 类 固 醉 * 的 科学 方法 ， 也 遵循 同样 的 过 程 ， 产生 
假设 、 和 验证、 放弃 或 完善 。 科 学 家 可 能 会 花费 毕生 精力 来 提出 或 验证 
儿 百 个 假设 ， 而 机 器 学 习 系 统 却 能 在 一 秒 钟 内 做 完 这 些 事 。 机 器 学 习 
使 科学 的 发 现 过 程 目 动 化 。 因 此 ， 并 不 奇怪 ， 这 既是 商业 领域 的 早 
命 ， 也 是 科学 领域 的 音 命 。 


为 了 取得 进步 ， 科 学 的 每 个 领域 都 需要 足够 的 数据 ， 以 与 其 研究 
现象 的 复 洒 性 相对 应 。 这 是 物理 成 为 第 一 个 腾飞 学 科 的 原因 : 第 谷 : 布 
拉 赫 对 星球 位 置 的 记录 ， 以 及 伽利略 对 钟 摆 摆 动 、 斜 面 的 观察 ， 已 经 
足以 推导 出 牛顿 定律 。 这 也 是 为 什么 虽然 分 子 生 物 学 这 个 学 科比 神经 


科学 年 轻 ， 但 是 已 超越 神经 科学 : DNA (脱氧 核糖 核酸 ) 微 阵列 以 及 
高 通 量 测序 技术 提供 了 大量 的 数据 ， 而 神经 科学 家 对 此 只 能 可 望 而 不 
可 即 。 这 也 是 为 什么 社会 科学 研究 是 一 场 艰苦 结 绝 的 斗争 : 你 拥有 的 
只 是 100 人 的 样本 和 每 个 人 的 十 几 个 测量 值 ， 你 能 模拟 的 也 只 是 某 个 规 
模 很 有 限 的 现象 ， 甚 至 这 个 现象 可 能 不 是 孤立 存在 的 ， 还 受到 其 他 现 
象 的 影响 ， 这 殉 意 味 你 仍然 没有 彻 捕 了 解 它 。 


有 个 好 消息 ， 那 就 是 之 前 缺乏 数据 的 学 科 现 在 拥有 很 多 数据 。 用 
不 着 让 50 名 睡 眼 悍 愉 的 本 科 生 到 实验 室 完成 任务 并 付 给 他 们 报酬 ， 心 
理学 家 通过 在 亚马逊 “土耳其 机 器 人 "后 上 发布 实验 任务 ， 就 可 以 找到 
满足 他 们 数量 要 求 的 实验 对 象 (这 个 网 站 对 更 多 样 化 的 样本 也 用 
助 ) 。 虽 然 回想 起 来 越 来 越 困 难 ， 但 也 只 是 10 年 前 ， 研 究 社交 网 络 的 
社会 学 家 启 叹 说 ， 他 们 无 法 得 到 成 员 超 过 几 百人 的 社交 网 络 。 现 在 有 
了 脸 书 ， 有 超过 10 亿 用 户 。 大 部 分 用 户 会 发 布 有 关 他 们 生活 的 很 多 细 
节 ， 就 像 地 球 社会 生活 的 实时 直播 。 在 神经 科学 领域 ， 神 经 连接 组 学 
和 功能 性 磁 共振 成 像 让 人 们 对 大 脑 有 了 十 分 详细 的 了 解 。 在 分 子 生 物 
学 领域 ,基因 和 蛋白 质 的 数据 库 数量 以 指数 级 速度 增长 。 甚 至 更 为 “年 
长 * 的 学 科 ， 如 物理 学 和 解剖 学 也 在 不 断 进步 ， 因 为 粒子 加 速 器 和 数字 
巡天 领域 的 数据 在 源源 不 断 输 出 。 


如 果 你 不 将 大 数据 变 成 知识 ， 它 将 台 无 用 处 ， 可 是 世界 上 没有 那 
么 多 科学 家 来 完成 这 件 事 。 埃 德 温 : 哈 芭 通过 钻研 照相 底 厂 发 现 新 的 星 
系 ， 但 史 隆 数字 这 天 计划 中 ， 多 达 5 亿 的 天 体 肯 定 不 是 这 样 被 辨认 出 来 
的 。 这 了 吏 像 在 沙滩 上 用 手 来 数 沙 粒 的 数目 。 你 可 以 记录 规则 ， 把 星系 
从 星星 及 干扰 物 如 鸟 、 飞 机 、 超 人 ) 区 分 开 来 ， 但 得 出 的 星系 并 不 
古 那 么 准确 。 相 比 之 下 ， 天 体 图 像 目录 编辑 和 分 析 工 具 (SKICAT) 项 
目 使 用 了 学 习 算 法 。 底 片 包括 标记 了 正确 类 别 的 天 体 ， 从 这 些 底 厂 出 
发 ， 学 习 算 法 可 以 明日 每 个 分 类 的 特点 ， 并 将 其 应 用 到 没有 标记 的 底 
片 当 中 。 甚 至 更 理想 的 征 ， 学 习 算 法 能 够 将 那些 对 人 类 来 说 难以 标记 
的 天 体 进 行 分 类 ， 这 些 天 体 正 是 该 项 调查 计划 的 主要 内 容 。 


有 了 大 数据 和 机 喜 学 习 ， 你 天 能 弄 明 日 比 之 前 复杂 很 多 的 现象 。 
在 多 数 领域 ， 科 学 家 一 般 只 使 用 种 类 很 有 限 的 模型 ， 例 如 线性 回归 模 
型 ， 在 这 个 模型 当中 ， 你 用 来 适应 数据 的 曲线 总 是 一 条 直线 。 遗 憾 的 
征 ， 世 界 上 的 大 多 数 现象 都 是 非 线性 的 〈 或 者 说 这 也 是 一 件 幸 事 ， 如 
果 是 线性 的 ， 生 活 会 变 得 非常 乏味 。 实 际 上 ， 那 样 天 不 会 存在 生命 
了 ) 。 机 器 学 习 打 开 了 广阔 、 全 新 的 非 线 性 模型 世界 。 这 就 好 比 在 只 
有 几 缕 月 光照 射 的 房间 ， 打 开 了 明亮 的 灯 。 


在 生物 学 领域 ， 学 习 算 法 的 研究 成 果 包 括 : DNA 分 子 中 基因 的 位 
置 ， 在 和 蛋 日 质 合成 前 ， 多 余 的 核糖 核酸 在 哪里 进行 绞 接 ;， 和 蛋 日 质 如 何 
折 县 成 各 目的 竺 有 形状 ; 不 同 条 件 如 何 对 基因 的 表达 造成 影响 。 用 不 
着 在 实验 室 对 新 药 进行 测试 ， 机 器 学 习 就 可 以 预测 这 些 药 物 是 否 有 
效 ， 只 有 最 有 效 的 药品 才 会 受到 测试 。 学 习 算 法 还 会 别 除 那些 可 能 产 
生 严 重 副作用 (甚至 导致 癌症 ) 的 药物 ， 备 选 药物 无 须 在 经 过 人 体 试 
验 被 证 明 无 效 后 才 被 禁止 使 用 ， 从 而 避免 了 代价 昂 贯 的 失败 。 


然而 ， 最 大 的 挑战 就 古 将 所 有 这 些 数 据 组 合成 一 个 整体 。 导 致 你 
患 心 脏 病 的 因素 有 了 哪些 ? 这 些 因 素 如 何 相互 影响 ? 牛顿 需要 的 只 是 三 
个 运动 定律 和 一 个 万 有 引力 定律 ， 但 一 个 细胞 、 一 个 有 机 体 、 一 个 社 
会 的 完整 模型 却 无 法 由 一 个 人 来 发 现 。 虽 然 随 着 知识 的 增长 ， 科 学 家 
的 分 工 变 得 越 来 越 细 ， 但 是 没有 人 能 够 将 所 有 知识 整合 到 一 起 ， 因 为 
知识 太 多 了 。 虽 然 科 学 家 们 会 合作 ， 但 语言 是 传播 速度 非常 缓慢 的 介 
质 。 虽 然 科 学 家 们 想 努 力 妃 上 别人 的 研究 ， 但 出 版 物 的 数量 如 此 之 
多 ， 他 们 的 距离 被 拉 得 越 来 越 远 。 通 常 是 ， 重 做 一 项 实验 比 找到 该 实 
验 的 报告 还 要 容易 。 机 器 学 习 在 这 时 就 会 起 作用 ， 它 能 根据 相关 信息 
搜索 文献 ， 将 某 领 域 的 行 话 翻译 到 另 一 个 领域 ， 并 建立 联系 ， 而 科学 
家 们 在 过 去 都 没有 意识 到 。 产 渐 地 ， 机 器 学 习 成 为 一 个 巨大 的 中 心 ， 
通过 这 个 中 心 ， 某 领域 里 发 明 的 建 模 技 术 将 会 被 引入 其 他 领域 。 


如 果 计 算 机 没有 被 发 明 出 来 ，20 世 纪 下 半 叶 的 科学 将 停滞 不 前 。 
这 可 能 不 会 很 快 在 科学 家 当中 表现 出 来 ， 因 为 他 们 专注 于 所 有 仍 可 努 
力 实现 、 有 限 的 进步 ， 但 进步 的 空间 真 的 太 小 了 。 同 样 ， 如 来 没有 机 
志学 习 ， 许 多 科学 在 未 来 10 年 将 会 面临 收益 递减 。 


为 了 预见 科学 的 未 来 ， 看 看 曼彻斯特 大 学 生物 技术 研究 院 的 实验 
室 ， 在 那里 ， 一 个 名 叫 亚当 的 机 器 人 正在 努力 工作 ， 目 的 是 找到 哪些 
基因 在 酵母 中 对 哪些 酶 进行 编码 。 亚 当 有 一 个 酵母 新 陈 代谢 的 模型 ， 
还 掌握 了 基本 的 基因 及 和 蛋 日 质 知 识 。 它 提出 假设 ,设计 实验 验证 假 
设 ， 进 行 实 地 实验 ， 分 析 结 果 ， 提 出 新 的 假设 ， 直 到 它 满意 为 止 。 当 
下 ， 人 类 科学 家 仍然 在 独立 检查 亚当 的 结果 ， 然 后 才 会 相信 这 些 结 
果 ， 但 在 未 来 ， 他 们 束 会 交 给 机 器 人 科学 家 来 验证 彼此 的 假设 。 


10 亿 个 比尔 .克林顿 


在 2012 年 的 美国 总 统 选举 中 ， 机 需 学 习 决 定 了 谁 能 当 上 和 总统。 通 
常 决定 总 统 选 举 的 因素 包括 经 济 、 候 选 人 的 亲民 度 等 ， 但 这 些 因素 没 
有 起 到 作用 ， 而 选举 的 结果 主要 受到 几 个 “ 播 舞 州 ? 的 影响 。 米 特 : 罗 姆 
尼 的 竞选 采用 的 古 传统 的 投票 策略 ， 将 选民 分 成 几 大 类 ， 然 后 选择 是 
否 把 每 个 类 别 作 为 目标 。 尼 尔 : 纽 察 斯 ( 罗 姆 尼 的 民意 调查 专家 ) 说 
道 : “如 采 我 们 能 在 俄 雍 俄 州 属 得 无 党 派 人 士 ， 那 么 这 场 竞 赛 我 们 殉 属 
了 。? 虽 然 罗 姆 尼 获 得 了 7% 无 党 派 人 士 的 文 择 ， 但 他 仍 失 去 了 这 个 
州 ， 在 竞选 中 失利 。 


相 比 之 下 ， 奥 巴 马 总 统 座 用 了 拉 伊 德 :机 尼 (机 器 学 习 专 家 ， 他 是 
奥巴马 竞选 中 的 首席 科学 家 ) 。 贡 尼 人 研究 的 是 如 何 整合 最 伟大 的 分 析 
运算 ,并 将 其 应 用 到 政治 史 中 。 他 们 将 所 有 选民 的 信息 整合 成 单个 数 
据 库 ， 然 后 将 该 数据 库 和 他 们 能 在 社交 网 络 、 市 场 膏 销 等 领域 找到 的 
资源 结合 起 来 。 之 后 着 手 对 每 个 选民 做 四 种 预测 (1) 文 持 奥巴马 的 


可 能 性 有 多 大 ; 《2) 会 不 会 参加 民意 调查 ; (3) 会 不 会 回应 竞选 家 
传 并 照 做 ， (4) 对 特定 问题 进行 对 话 之 后 ， 他 们 会 不 会 改变 选举 决 
定 。 基 于 这 些 选 民 的 例子 ， 奥 巴 马 团队 每 个 晚上 进行 66 000 场 选举 模 
拟 ， 并 用 这 些 结果 指导 奥巴马 范 远 的 志愿 者 大 军 : 该 给 谁 打 电话 ， 该 
拜访 谁 ， 该 说 什么 。 


在 政 男 、 商 界 以 及 战争 中 ， 最 糟糕 的 事情 莫 过 于 ， 你 不 明日 对 手 
的 行动 ， 而 知道 该 上 怎么 做 时 ， 为 时 已 晚 。 这 就 是 发 生 在 罗 姆 尼 范 选中 
的 事情 ， 他 们 能 看 到 对 手 的 团队 在 特定 镇 的 特定 电台 伦 钱 做 宣传 ， 却 
不 知道 这 征 为 什么 ， 他 们 能 预测 的 实在 太 少 。 最 后 ， 奥 巴 马 除了 北 卡 
罗 来 纳 州 以 外 ， 启 得 了 每 个 州 ， 而 且 与 最 可 靠 的 民意 调查 专家 的 预测 
相 比 ， 他 赢得 了 更 多 。 反 过 来 ， 最 可 靠 的 民意 调查 专家 (例如 内 特 - 硕 
尔 ) 使 用 的 是 最 复杂 的 预测 技术 ， 预 测 结果 却 没 有 奥巴马 竞选 团队 的 
结果 准确 ， 因 为 他 们 的 资源 比较 少 。 但 他 们 比 那 些 所 请 的 权威 人 士 要 
准确 很 多 ， 因 为 那些 人 的 预测 只 是 基于 他 们 目 己 的 专业 知识 。 


也 许 你 会 认为 ，2012 年 的 美国 总 统 竞选 只 是 机 缘 巧 合 : 大 多 数 选 
举 结果 并 不 那么 接近 ， 机 器 学 习 无 法 成 为 决定 因素 。 但 未 来 机 妖 学 习 
会 让 更 多 的 选举 结 采 更 接近 。 在 政界 ， 正 如 在 所 有 领域 那样 ， 学 习 整 
像 一 场 狂 手腕 比赛 。 在 卡尔 ' 罗 夫 〈 前 直销 商 和 数据 挖掘 工程 师 ) 的 年 
代 ， 共 和 和 党 是 领先 的 。 到 了 2012 年 ， 共 和 和 党 开始 掉队 ， 但 现在 他 们 又 
追 上 来 了 。 我 们 不 知道 下 一 轮 选 举 谁 会 领先 ， 但 我 们 知道 两 个 党 派 为 
了 说 得 选举 都 很 努力 。 这 也 就 意味 着， 应 该 更 好 地 了 人 解 迄 民 ， 根 据 候 
选 人 的 情况 进行 宣传 ， 甚 至 根据 实际 情况 选择 候选 人 。 在 选举 期 间 以 
及 每 轮 选 举 之 间 ， 这 适用 于 整个 党 纲 : 在 硬 数据 的 基础 上 ， 如 果 详 细 
的 选民 模式 表明 该 党 派 现在 的 纲领 征 失 败 的 ， 那 么 该 党 派 束 应 改变 
它 。 因 此 ， 把 主要 选举 活动 放 到 一 边 ， 民 意 调查 中 候选 人 的 差距 会 变 
得 越 来 越 小 ， 而 且 很 快 会 消失 。 其 他 条 件 不 变 ， 拥 有 更 好 选民 模式 的 
候选 人 会 属 得 选举 ， 而 选民 也 会 因此 得 到 更 好 的 服务 。 


政治 家 最 伟大 的 才能 之 一 ， 束 古 能 够 了 解 其 选民 个 人 或 者 计 民 团 
体 ， 然 后 直接 与 他 们 对 话 ， 比 尔 ' 死 林 顿 束 是 其 中 的 一 个 典范 。 机 硕 学 
习 的 作用 束 是 ， 让 每 位 选民 都 觉得 元 林 顿 对 竺 他们 亲 力 亲 为 、 非 常用 
心 。 尽 管 他 们 心目 中 的 这 些小 小 克林顿 与 真 的 克林顿 相差 太 远 了 ,但 
优势 在 于 “小 克 林 赖 * 的 数量 众多 ， 哪 怕 比 尔 :克林顿 根本 无 法 了 解 美国 
的 每 位 选民 是 怎么 想 的 (虽然 他 确实 想 知 道 ，。 学 习 算 法 是 最 强大 的 
政治 家 推销 丙 。 


当然 ， 就 像 企 业 一 样 ， 政 治 家 能 把 机 絮 学 习 掌 握 的 信息 用 好 ， 也 
可 能 会 用 得 很 糟 粽 。 例 如 ， 对 不 同 的 选民 ， 他 们 可 能 会 给 出 不 一 致 的 
承诺 ， 但 选民 、 媒 体 、 监 督 组 织 也 会 目 己 进行 数据 挖 气 ， 并 揭露 做 得 
太 过 分 的 政治 家 。 竞 选 活动 不 仅仅 是 候选 人 之 间 的 较量 ， 还 涉及 民主 
进程 中 的 所 有 参与 者 。 


更 大 范围 的 结果 就 是 ， 民 主 会 更 好 地 得 到 实现 ， 因 为 克 民 与 政治 
家 之 间 交 流 的 范围 会 飞速 扩大 。 在 当今 这 个 高 速 互 联网 时 代 ， 民 意 代 
表 从 你 身上 获取 的 信息 数量 仍 像 19 世 纪 时 一 样 有 限 : 每 两 年 会 有 100 比 
特 左 右 的 信息 ， 数 量 正 好 对 应 一 张 选票 。 这 些 信 息 会 由 民意 信息 来 补 
充 ， 或 许 偶尔 还 会 有 电子 邮件 和 市 民 大 会 的 信息 ， 但 还 是 少 得 可 怜 。 
大 数据 和 机 器 学 习 正 改变 这 种 等 式 关系 。 在 未 来 ， 只 要 选民 模式 准 
确 ， 当 选 冒 员 就 可 以 每 天 询问 选民 上 千 次 想 要 什么 ， 然 后 根据 询问 结 
果 来 办 事 ， 不 用 在 现实 中 纠缠 选民 。 


学 习 算法 与 国家 安全 


在 网 络 空 间 之 外 ， 学 习 算 法 是 保护 国家 的 壁 难 。 每 天 ， 国 外 黎 击 
者 都 会 企图 疤 进 五 角 大 楼 、 国 防 承 包 丙 以 及 其 他 公司 和 政府 机 构 的 计 
算 机 。 他 们 的 计 诺 不 断 变 化 ， 能 抵抗 昨天 和 袭 击 的 方法 ， 今 天 束 已 经 不 
管用 了 。 编 写 代 码 来 侦查 并 阻止 每 场 袭 击 ， 可 能 会 和 马 其 诡 防线 一 样 


有 效 ， 五 角 大 楼 的 网 络 司令 部 十 分 了 解 这 一 点 。 但 如 采 是 恕 怖 分 子 的 
第 一 次 袭击 ， 而 且 也 没有 之 前 的 例子 供 机 器 学 习 来 参考 ， 那 么 机 器 学 
习 就 会 遇 到 问题 。 学 习 算 法 会 构建 正常 行为 的 模型 《这 样 的 模型 数量 
很 多 ) ， 标 出 异常 行为 ， 然 后 召集 来 “骑兵 ”( 系 统管 理 员 ) 。 如 采 网 
络 战争 发 生 ， 人 类 就 十 忌 指 挥 ， 算 法 束 是 步兵 。 人 类 速度 太 慢 、 数 量 
太 少 ， 很 快 束 会 被 机 右 人 大 军 歼 火 。 我 们 需要 目 己 的 机 事 人 军队 ， 而 
机 器 学 习 束 像 机 器 人 中 的 西点 军校 。 


网 络 战争 是 不 对 称 战争 的 一 个 例子 ， 一 方 的 传统 军事 实力 比 不 上 
男 一 方 ， 但 仍然 可 以 给 对 方 造成 中 重伤 害 。 少 数 翁 怖 分 子 只 用 美工 思 
忠 可 以 撞 到 双子 塔 ， 并 让 几 干 名 无 率 者 遇难 。 当 今 关 国安 全 最 大 的 威 
胁 束 是 不 对 称 战争 ， 而 且 抵 抗 所 有 威胁 的 有 效 武 紫 束 是 信息 。 如 末 政 
倒 不 了 ， 那 么 他 也 活 不 了 。 好 消 居 束 古 我 们 有 大 量 信 息 ， 但 也 有 坏 
消息 。 


美国 国家 安全 局 已 经 对 数据 产生 无 限 大 的 胃口 ， 也 因此 声名 狐 
夭 。 据 估计 ， 每 天 美国 国家 安全 局 蚀 听 着 全 球 10 亿 多 个 通话 ， 还 有 其 
他 通信 。 但 是 ， 抛 开 隐 私 问题 ， 它 也 没有 让 上 百 万 员工 来 镭 听 这 些 通 
话 、 偷 看 邮件 ， 甚 至 也 不 会 记录 谁 和 谁 通话 。 绝 大 多 数 通 话 征 没 有 嫌 
疑 的 ， 而 专门 编写 程序 来 找 出 有 嫌疑 的 通话 又 很 困难 。 过 去 ， 类 国 国 
家 安全 局 利用 关键 词 配 对 方法 ， 但 要 应 付 这 个 方法 也 很 容易 (例如 ， 
把 爆炸 袭击 称 作 “结婚 ?”， 把 炸弹 称 作 “结婚 看 料 *”) 。21 世 纪 ， 这 些 事 
忠 可 以 交 给 机 器 学 习 。 保 密 是 安全 局 的 标志 ， 但 安全 局 局 长 已 经 同 美 
国 国会 证 明 ， 通 话 记录 挖 据 已 经 阻止 了 几 十 起 念 怖 威胁 。 


念 饰 分 于 可 隐藏 在 足球 比赛 的 人 群 中 ， 但 学 习 算 法 能 辨认 他 们 的 
相貌 。 念 怖 分 子 可 以 在 国外 制造 爆炸 事件 ， 但 学 习 算 法 能 找 出 他 们 。 
学 习 算法 还 可 以 做 更 加 精细 的 事情 : 将 机 右 人 与 事件 连接 起 来 ， 这 些 
事件 单个 看 起 来 并 无 危害 ， 但 集中 起 来 可 能 殉 预 示 着 不 祥 。 这 种 方法 
本 可 以 阻止 “9.11? 事 件 的 发 生 。 有 一 个 进一步 的 转折 : 一 旦 确定 的 程 


序 部 署 下 来 ， 坏 人 可 能 会 改变 其 活动 ， 以 扰乱 该 程序 。 这 与 目 然 世 界 
不 同 ， 目 然 世 界 总 是 以 同样 的 方式 运转 。 要 解决 这 个 问题 ， 束 要 将 机 
器 学 习 与 博弈 论 相 结合 ， 这 是 我 已 经 在 做 的 工作 : 别 只 想 着 打击 对 手 
当前 想 做 的 事 ， 要 学 会 巧妙 地 回避 对 手 对 你 的 学 习 算法 的 损害 。 正 如 
博 穿 论 那样 ， 把 各 种 措施 的 成 本 和 利益 考虑 在 内 ， 这 也 有 助 于 找到 隐 
私 与 安全 之 间 的 平衡 点 。 


不 列 题 之 战 期 间 ， 瑞 国 空军 阻止 了 纳粹 德国 空军 的 进攻 ， 尽 管 后 
者 人 数 比 前 者 多 很 多 。 德 国 飞行 员 不 明日 ， 为 什么 无 论 走 到 哪里 ， 他 
们 总 会 碰 上 英国 空军 。 英 国有 一 个 秘密 武器 ， 雷达 ， 可 以 在 德国 飞机 
越境 进入 英国 领空 时 ， 束 探测 到 它们 。 机 器 学 习 束 像 狼 了 雷达 ， 能 够 
预知 未 来 。 别 只 是 回击 对 手 的 行动 ， 权 预测 他 们 的 行动 ， 并 先 发 制 
站 训 


一 个 更 确切 的 例子 就 是 人 们 熟知 的 “预知 执法 ”。 通 过 预测 犯罪 倾 
问 ， 战 略 性 地 将 巡逻 队 集中 在 最 可 能 需要 的 地 方 ， 同 时 采取 其 他 预防 
措施 ， 这 样 一 座 城市 的 警力 就 能 有 效 地 完成 更 大 范围 的 工作 。 在 许多 
方面 ， 执 法 过 程 束 像 不 对 称 战争 ， 会 用 到 许多 相似 的 学 习 算 法 ， 无 论 
古 在 侦查 诈骗 、 换 露 犯 罪 网 络 ， 还 是 普通 传统 的 打击 执法 中 。 


机 器 学 习 在 战争 中 也 将 扮演 越 来 越 重 要 的 角色 。 学 习 算 法 能 有 助 
于 张 散 战争 迷雾 ， 筛 选 侦察 图 像 ， 处 理 后 续 报 告 ， 并 整合 信息 ， 为 指 
挥 官 提供 战争 形势 分 析 。 学 习 算 法 可 以 武装 军用 机 器 人 的 大 脑 ， 帮 助 
其 保持 方位 ， 适 应 地 形 ， 把 敌 机 和 民用 机 区 别 开 来 ， 以 及 进行 制导 。 
美国 国防 部 高 级 研究 计划 局 (DARPA) 的 领头 狗 (AlphaDog) 能 为 士 
兵 搬运 设备 。 遥 控 飞 机 在 学 习 算 法 的 作用 下 可 自主 飞行 。 虽 然 它 们 仍 
受到 人 类 飞行 员 的 部 分 控制 ， 但 未 来 的 趋势 是 一 个 飞行 员 监控 越 来 越 
多 的 遥控 飞机 群 。 在 未 来 的 军队 里 ， 学 习 算 法 的 数量 会 大 大 超过 士兵 
的 人 数 ， 这 将 减少 许多 士兵 的 伤亡 。 


我 们 将 走向 何方 


科技 注 流 奔涌 而 来 并 迅猛 癌 前 。 机 器 学 习 不 同 寻 和 芝 的 一 点 号 古 ， 
在 经 历 所 有 这 些 变 草 以 及 繁 采 和 破产 之 后 ， 它 开始 逐渐 强大 。 它 过 到 
的 第 一 个 大 的 打击 是 在 金融 领域 ,预测 股票 的 起 伏 流 动 ， 起 于 20 世 纪 
80 年 代 。 接 下 来 的 一 疲 是 挖掘 企业 数据 库 ， 在 20 世 纪 90 年 代 中 开始 发 
展 壮大 ， 尤 其 古 在 直接 营销 、 客 户 关 系 管 理 、 资 信 评 分 以 及 诈 驴 侦查 
等 领域 。 接 看 是 网 络 和 电子 商务 ， 在 这 些 领域 中 ， 目 动 个 性 化 很 快 流 
行 起 来 。 当 互联 网 泡沫 暂时 章 弱 这 种 趋势 时 ， 将 机 絮 学 习 应 用 到 网 页 
搜索 和 广告 投放 的 做 法 开始 腾飞 起 来 。 不 管 怎 样 ，“9:11” 念 怖 黎 击 后 
机 器 学 习 被 应 用 到 打击 你 怖 主义 的 战争 中 。 网 络 2.0 种 来 一 连 串 的 新 应 
用 ， 包 括 挖 抉 社交 网 络 、 搜 索 哪些 博客 谈 到 你 的 产品 。 同时， 各 个 领 
域 的 科学 家 也 逐渐 转 辐 大 规模 建 模 ， 由 分 子 生物 学 家 和 天 文学 家 打头 
阵 。 人 们 勉强 留意 到 了 房地产 泡沫 ， 而 其 主要 影响 就是 使 人 才 从 华 尔 
街 转移 到 硅谷 ， 并 受到 欢迎 。2011 年 ,，“ 大 数据 ”的 概念 流行 起 来 ， 机 
妖 学 习 被 明确 归 入 全 球 经 济 未 来 的 中 心 。 当 今 ， 似 乎 没有 哪个 人 类 钻 
研 的 领域 不 受到 机 器 学 习 的 影响 ， 甚 至 包括 看 起 来 没有 多 大 关系 的 领 
域 〈 如 音乐 、 体 育 、 品 酒 ) 。 


尽管 机 器 学 习 发 展 很 明显 ,但 这 也 仅仅 十 未 来 的 预告 。 虽 然 它 有 
用 ， 但 实际 上 当今 在 工业 上 起 作用 的 学 习 算 法 的 生成 还 是 受到 了 很 大 
限制 。 如 采 现 在 实验 室 的 算法 能 在 各 领域 的 前 线 使 用 ， 比 尔 : 兰 苞 阅 机 
器 学 习 的 突破 产生 的 价值 将 相当 于 10 家 微软 ， 其 实 这 个 说 法 有 点 保守 
了 。 如 果 这 些 观点 让 研究 人 员 真 正 觉 得 眼前 一 片 光明 ， 而 且 收 到 效 
果 ， 那 么 机 品 学 习 市 来 的 束 不 仅仅 是 新 的 文明 时 代 ， 还 是 地 球 生 命 进 
化 的 新 阶段 。 


经 样 才 能 实现 这 个 目标 ? 学 习 算 法 如 何 运行 ? 现在 它们 不 能 做 什 
么 ? 它们 的 下 一 代 会 是 怎样 的 ? 机 器 学 习 草 命 将 以 什么 方式 呈现 ? 你 
得 抓 住 哪 些 机 遇 ， 提 防 哪些 危险 ? 这 些 束 是 这 本 书 要 讲 的 内 容 。 


亚马逊 “土耳其 机 器 人 ” (Amazon Mechanical Turk) 是 一 个 Web 服务 应 用 程序 接 


发 商 通 过 它 可 以 将 人 的 智能 整合 到 远程 过 程 调用 。 一 一 编者 注 


第 二 章 


终极 算法 


机 器 学 习 的 应 用 非常 广泛 ， 更 为 惊人 的 是 ， 相 同 算法 可 完成 不 同 
的 事情 。 在 机 器 学 习 领 域 之 外 ， 如 采 你 要 解决 两 个 不 同 的 问题 ， 束 得 
编写 两 个 不 同 的 程序 。 这 些 程序 可 能 用 到 相同 的 基础 架构 ， 如 相同 的 
编程 语言 或 数据 库 系 统 。 但 是 ， 如 果 你 想 处 理 信用 卡 申 请 ， 诸 如 下 棋 
的 程序 则 肋 无 用 处 。 在 机 融 学 习 领 域 ， 如 采 提 供 适 当 的 数据 来 让 机 大 
学 习 ， 那 么 相同 的 算法 既 可 以 处 理 信用 卡 申 请 ， 也 可 以 下 棋 。 实 际 
上 ， 大 量 的 机 器 学 习 应 用 仅仅 由 几 个 算法 来 负责 ， 在 接 下 来 的 几 个 草 
节 中 我 们 会 谈 到 这 些 算法 。 


例如 ， 杆 素 贝 叶 斯 算法 就 古 一 个 可 以 用 短 方程 来 表达 的 学 习 算 
法 。 只 要 提供 患者 病历 的 数据 库 ， 包 括 病人 的 症状 、 检 查 结 采 ， 或 者 
他 们 是 否 有 什么 特殊 情况 ， 杆 素 贝 叶 斯 算法 就 可 在 一 秒 之 内 做 出 诊 
断 ， 而 且 往往 比 那 些 伦 几 年 在 医学 院 学 习 的 医生 还 要 强 ， 甚 至 它 还 可 
打败 花费 数 干 小 时 构建 的 医学 专家 系统 。 该 算法 还 可 应 用 于 学 习 垃 专 
邮件 过 滤 郁 ， 乍 一 看 ， 这 和 医疗 诊断 蜡 无 关系 。 丈 外 一 个 简单 的 学 习 
算法 就 古 最 近邻 算法 ， 它 的 用 途 十 分 广泛 ， 从 笔迹 识别 到 控制 机 右 人 
手 ， 以 及 推荐 你 可 能 喜欢 的 书籍 或 者 电影 。 决 策 树 学 习 算 法 也 同样 擅 


长 决定 你 的 信用 卡 申请 是 否 应 补 通 过 、 寻 找 DNA 中 的 绞 接点 ， 以 及 下 
棋 时 指导 下 一 步 该 怎么 走 。 


相同 的 学 习 算 法 不 仅 可 以 完成 无 穷 无 尽 且 不 同 的 事情 ， 而 且 和 被 
它们 苦 代 的 传统 算法 相 比 ， 它 们 要 简单 得 多 。 多 数学 习 算 法 可 能 只 需 
数 百 行 或 者 数 千 行 代码 。 相 比 之 下 ， 传 统 程序 则 需 儿 十 万 甚至 上 百 万 
行 代码 ， 并 且 单 个 学 习 算 法 就 可 以 导出 无 数 个 不 同 的 程序 。 


如 果 那 么 少 的 学 习 算法 整 可 以 做 那么 多 事 ， 那 么 有 一 个 逻辑 上 的 
疑问 : 单个 学 习 算 法 可 以 把 所 有 事情 都 做 完 吗 ? 换 句 话说 ， 单 个 算法 
可 以 学 习 所 有 能 从 数据 中 学 习 的 东西 吗 ? 这 是 一 个 非常 艰巨 的 任务 ， 
因为 这 基本 上 包含 成 年 人 大 脑 里 以 及 人 类 进步 所 创造 的 一 切 ， 还 有 所 
有 科学 知识 的 总 和 。 实 际 上 ， 对 所 有 主要 的 学 习 算 法 一 一 包括 最 近邻 
算法 、 决 策 树 学 习 算 法 以 及 贝 叶 斯 网 络 《朴素 贝 叶 斯 的 概括 ) 一 一 来 
说 ， 如 果 你 为 学 习 算 法 提供 足够 、 适 当 的 数据 ， 该 算法 可 以 实现 任 一 
功能 〈 对 学 习 任 何 东 西 来 说 ， 都 与 数学 相关 ) 。 需 要 注意 的 是 , “足够 
数据 ?也 有 可 能 无 限 。 学 习 无 限 数据 需要 做 出 假设 ， 如 我 们 会 看 到 的 那 
样 ， 而 且 不 同 的 学 习 算 法 会 有 不 同 的 假设 。 


如 条 不 把 这 些 假设 价 入 算法 中 ， 而 是 将 其 连同 数据 一 起 ， 当 作 显 
示 输 入 ， 并 允许 用 户 选择 插入 哪 一 个 ， 甚 至 陈述 新 的 假设 ， 那 么 会 皇 
样 ? 有 没有 这 种 算法 ， 可 以 接收 任何 数据 及 假设 并 输出 隐藏 其 中 的 知 
识 ? 我 相信 有 。 当然， 我 们 得 限制 假设 的 可 能 性 ， 否 则 如 采 把 整个 目 
标 知识 都 以 假设 形式 赋予 算法 ， 那 束 古 在 作 次 。 


我 们 可 以 通过 限制 输入 的 规模 、 要 求 假 设 弱 于 当前 学 习 算 法 等 方 
法 ， 来 实现 这 个 目的 。 


那么 疑问 融会 变 成 : 这 些 假设 要 弱 到 何 种 程度 ， 但 仍 能 够 从 无 限 
数据 中 获得 所 有 相关 知识 ? 注意 “相关 ”这 个 词 : 我 们 仅仅 对 存在 于 世 
界 的 知识 感 兴 趣 ， 对 不 存在 的 世界 没有 兴趣 。 因 此 发 明 一 种 通用 的 学 


习 算法 可 归结 为 发 现 宇宙 最 深层 的 规律 ， 所 有 现象 部 遵循 该 规律 ， 然 
后 找 出 计算 的 有 效 方法 来 将 其 与 数据 结合 起 来 。 要 找到 这 个 “计算 的 有 
效 方法 "， 束 不 能 将 物理 定律 视 为 万 物 规律 ， 如 我 们 将 看 到 的 那样 。 然 
而 ， 这 并 不 意味 着 通用 的 学 习 算法 要 和 专用 算法 一 样 高 效 。 正 如 在 计 
算 机 科学 中 常 发 生 的 那样 ， 我 们 宁愿 牺牲 效率 来 换取 通用 性 。 这 在 学 
习 既 定 目标 知识 所 需 数据 的 量 上 也 适用 : 一 般 通用 学 习 算 法 会 比 专用 
算法 需要 更 多 的 数据 〈 但 如 果 我 们 有 必要 的 数量 ， 就 没 问 题 ) ， 而 且 
数据 越 多 ， 越 有 可 能 会 这 样 。 


那么 ， 这 就 古本 书 的 中 心 假设 : 


所 有 知识 ， 无 论 是 过 去 的 、 现 在 的 还 是 未 来 的 ， 都 有 可 能 
通过 单个 通用 学 习 算 法 来 从 数据 中 获得 。 


我 将 该 学 习 算 法 称 为 “终极 算法 ”。 如 果 这 种 算法 成 为 可 能 ， 它 的 
发 明 将 成 为 人 类 最 伟大 的 科学 成 束 之 一 。 实 际 上 ， 终 极 算法 古 我 们 最 
不 愿意 发 明 的 东西 ， 因 为 一 旦 对 其 放松 ， 它 会 继续 发 明 一 切 有 可 能 发 
明 的 东西 。 我 们 要 做 的 ， 就 是 为 它 提供 足够 、 适 当 的 数据 ， 通 过 这 些 
数据 ， 它 会 发 现 相应 的 知识 .给 它 视频 流 ， 它 整 会 观看 ， 给 它 图 书 
馆 ， 它 就 会 阅读 ;给 它 物理 实验 结果 ， 它 就 会 发 现 物理 定律 ， 给 它 
DNA 品 体 学 数据 ， 它 束 会 发 现 DNA 的 结构 。 


这 可 能 听 起 来 有 点 八 竿 子 打 不 着 : 一 种 算法 怎么 可 能 学 习 那 么 多 
不 同 的 事情 ， 而 且 是 这 么 难 的 事情 呢 ? 但 实际 上 ， 种 种 证 据 表 明 终 极 
算法 是 存在 的 。 下 面 我 们 来 看 看 它们 是 什么 样 的 。 


来 目 神经 科学 的 论证 


2000 年 4 月 ， 厅 省 理工 学 院 的 神经 系统 科学 家 团队 在 《 目 然 》 杂 志 
上 发 布 了 一 项 非 同 寻 痹 的 实验 结果 。 他 们 对 雪 用 的 大 脑 进 行 重新 布 
线 ， 改 变 了 雪 貂 从 眼睛 到 听觉 度 层 (大 脑 负责 处 理 声 普 的 部 分 ) 以 及 
从 和 耳 示 到 视觉 皮层 之 间 的 连接 。 你 可 能 觉得 实验 结果 就是 雪 巍 会 闫 重 
致 残 ， 但 并 没有 : 听觉 皮层 学 会 看 ， 视 觉 皮 层 学 会 昕 ， 而 且 雪 轿 没 
事 。 一 般 的 哺乳 动物 ， 其 视觉 皮层 都 包含 一 张 视网膜 地 图 :皮层 中 ， 
与 视网膜 附近 区 域 相连 的 神经 元 彼此 相互 接近 。 相 反 ， 大 脑 被 重新 布 
线 的 雪 用 在 听觉 皮层 中 形成 了 这 张 视网膜 图 。 如 采 视 觉 信 息 重 新 导入 
躯体 感觉 庆 层 (负责 感知 触觉 ，， 红 体 感觉 皮层 也 会 学 会 看 。 其 他 哺 
乳 动 物 也 有 这 样 的 能 


对 于 天 生 看 不 见 的 人 ， 视 觉 度 层 可 以 负 贡 大 脑 的 其 他 功能 。 对 于 
听 不 见 的 人 ， 昕 和 觉 度 层 也 可 以 这 么 做 。 育 人 可 以 借助 天 头 来 学 
会 看"”， 方 法 是 将 头 戴 式 摄像 机 的 视频 图 像 发 送 至 天 头 上 的 一 组 电极 
上 ， 高 电压 与 高 像素 对 应 ， 低 电压 与 低 像素 对 应 。 本 . 安 德 伍德 是 言 
人 ， 小 时 候 就 目 学 像 蝙蝠 那样 ， 用 回声 定位 来 导航 。 


通过 呈 舌 头 、 听 回声 ， 他 能 够 到 处 走动 且 不 会 撞 到 障碍 物 ， 会 踩 
滑板 车 ， 甚 至 还 能 打 篮 球 。 所 有 这 些 例子 都 证 明 ， 大 脑 目 始 至 终 只 使 
用 了 一 种 相同 的 学 习 算 法 ， 那 些 负责 不 同 知觉 的 区 域 ， 区 别 也 仅仅 在 
于 与 其 相连 、 输 入 信息 的 器 官 (如 眼睛 、 耳 打 、 鼻 子 ) 。 反 过 来 ， 关 
联 区 (大 脑 的 各 个 皮层 ) 通过 与 不 同 的 感觉 区 (各 个 感觉 器 官 ) 相 
连 ， 来 实现 其 机 能 ， 而 执行 区 则 通过 连接 关联 区 来 实现 其 机 能 ， 然 后 
输出 反馈 。 


通过 在 显微镜 下 观察 皮层 可 以 得 出 相同 的 结论 。 同 样 的 布线 模式 
不 断 重复 ， 随 处 可 见 。 皮 质 古 一 个 6 层 的 柱状 物 ， 反 馈 回 路 达到 大 脑 一 
个 叫 丘 脑 的 结构 ， 以 及 短程 序 抑制 连接 和 远程 兴 理 性 连接 反复 出 现 的 
模式 。 虽 然 表 现 出 一 定数 量 的 变异 ， 但 这 看 起 来 更 像 是 来 目 同一 算法 
(而 不 是 不 同 算法 ) 的 不 同 参 数 或 者 设置 。 低 级 感官 领域 会 有 更 为 明 


显 的 差异 ， 但 正如 重新 布线 实验 表明 的 那样 ， 这 些 都 不 具有 决定 性 。 
小 脑 是 比 大 脑 更 早 进 化 的 部 分 ， 负 责 答 单 的 运动 调节 ， 有 着 非常 明显 
且 有 规律 的 架构 ， 由 小 很 多 的 神经 元 构成 ， 因 此 ， 看 起 来 至 少 动作 学 
习 使 用 的 是 不 同 的 算法 。 然 而 ， 如 有 果 一 个 人 的 小 脑 受 到 损伤 ， 大 脑 皮 
去 会 接管 它 的 机 能 。 人 的 生物 进化 过 程 保 留 了 小 脑 ， 但 这 并 不 意味 着 
小 脑 能 做 大 脑 皮层 不 能 做 的 事情 ， 只 是 因为 小 脑 更 加 高 效 。 


目 始 至 终 ， 大 脑 构造 中 发 生 的 运算 也 同样 相似 。 大 脑 中 的 所 有 信 
息 都 以 同样 方式 (通过 神经 元 的 放电 模式 ) 来 表示 。 学 习 机 制 也 相 
同 : 记忆 通过 加 强 集群 放电 神经 元 之 间 的 连接 得 以 形成 ， 涉 及 一 个 叫 
作 长 时 程 增 强 的 生物 化 学 过 程 。 不 仅 人 脑 是 这 样 ， 不 同 的 动物 ， 其 大 
脑 运 行 机 制 都 很 相似 。 我 们 的 大 脑 异 党 大 ， 但 似乎 与 其 他 动物 一 样 ， 
其 构建 遵循 同样 的 原则 。 


证 明 大 脑 度 层 统一 性 的 另 一 个 证 据 来 和 目 所 谓 的 基因 组 贫乏 。 人 类 
大 脑 中 的 连接 数量 是 基因 组 中 字母 数量 的 100 万 余 倍 ， 因 此 从 物理 角 
度 ， 基 因 组 不 可 能 弄 明 日 大 脑 构造 的 细节 。 


然而 ， 关 于 大 脑 是 终极 算法 这 个 观点 的 最 重要 论据 ， 就 是 大 脑 负 
责 我 们 能 感知 以 及 想象 的 一 切 。 如 果 某 物 存 在 ， 但 大 脑 无 法 对 其 进行 
学 习 ， 那 么 我 们 就 不 知道 它 的 存在 。 我 们 可 能 只 是 没 看 见 它 ， 或 者 认 
为 它 是 随机 出 现 的 。 不 管 怎样 ， 如 果 我 们 将 大 脑 放 入 计算 机 中 运行 ， 
那个 算法 就 能 掌握 我 们 能 学 会 的 一 切 。 因 此 发 明 终 极 算法 的 一 种 途径 
(可 以 说 是 最 流行 的 一 种 ) 就 是 对 人 脑 进 行 逆 向 解析 。 杰 夫 : 霍 金 斯 
(Jeff Hawkins) 在 他 的 著作 《人 工 智能 的 未 来 》 (On Intelligence) 中 
对 此 进行 了 尝试 。 雷 : 库 北 韦 尔 (Ray Kurzweil) 把 他 的 希望 放 在 奇 点 
上 一 一 人 工 智 能 的 崛起 远 远 超过 人 类 的 多 样 性 。 这 样 做 的 同时 ， 他 还 
在 《如 何 创造 思维 》 (How to Create a Mind) 一 书 中 对 此 进行 了 党 
试 。 虽 然 如 此 ， 我 们 会 看 到 ， 这 仅仅 是 几 个 可 能 途径 中 的 一 个 。 这 甚 
至 不 一 定 是 最 有 可 能 的 一 个 ， 因 为 大 脑 非 常 复杂 ， 而 我 们 还 处 于 解密 


大 脑 的 初级 阶段 。 另 一 方面 ， 如 采 我 们 找 不 到 终极 算法 ， 奇 点 也 不 会 
很 快 发 生 。 


并 不 是 所 有 的 神经 系统 科学 家 都 相信 大 脑 皮 层 的 统一 性 ， 在 我 们 
肯定 这 个 观点 之 前 ， 需 要 学 习 很 多 东西 。 关 于 大 脑 能 掌握 以 及 不 能 掌 
握 的 东西 ， 这 个 问题 也 引起 了 业 弄 激烈 的 讨论 。 如 果 有 我 们 知道 但 大 
脑 不 能 学 习 的 东西 ， 那 么 这 个 东西 肯定 已 经 通过 进化 被 掌握 了 。 


来 目 进 化 论 的 论证 


生物 多 样 性 源 于 单一 机 制 : 目 然 选择 。 值 得 注意 的 是 ， 计 算 机 科 
学 家 对 该 机 制 非常 熟悉 : 我 们 通过 反复 研究 芝 试 许多 备 选 方法 来 解决 
问题 ， 选 择 并 改进 最 优 方案 ， 并 尽 可 能 多 地 壬 试 这 些 步 又 。 进 化 论 是 
一 种 算法 。 套 用 查尔斯 : 巴 贝 奇 (维多利亚 时 期 的 计算 机 先驱 人 物 ) 的 
观点 ， 上 帝 创 造 的 不 是 物种 ， 而 是 创造 物种 的 算法 。 达 和 尔 文 在 《物种 
起 源 》 的 辟 结 部 分 提 到 的 “无 限 形体 ， 美 丽 至 极 * 掩 饰 了 最 美的 统一 
性 :所 有 这 些 形 体 都 被 编码 在 DNA 中 ， 所 有 这 些 形体 都 通过 改变 和 连 
接 这 些 染色 体 来 表现 。 只 通过 该 算法 的 一 个 描述 ， 谁 会 猜 出 它 产 生 了 
你 和 我 ? 如 果 进 化 论 这 个 算法 能 学 习 我 们 ， 可 以 想象 它 还 可 以 学 习 能 
学 习 到 的 一 切 ， 条 件 是 我 们 将 进化 论 这 个 算法 运用 到 足够 强 的 计算 机 
上 。 的 确 ， 在 机 器 学 习 领 域 ， 通 过 模仿 目 然 选择 来 使 程序 进化 是 许多 
人 正在 努力 做 的 事情 。 因 此 ， 进 化 论 是 发 外 一 个 有 项 望 通 往 终极 算法 


的 途径 。 


利用 足够 多 的 数据 ， 一 种 简单 的 算法 能 掌握 什么 ?” 关于 这 个 问 
题 ， 最 经 典 的 例子 就 古 进化 论 。 输 入 进化 论 这 个 算法 的 信息 是 所 有 存 
在 过 的 、 活 着 的 生物 的 经 历 以 及 命运 (对 现在 的 算法 来 说 是 大 数 
据 ) 。 此 外 ， 这 个 进化 论 算 法 已 经 在 地 球 上 最 强大 的 计算 机 运行 了 300 
多 万 年 一 一 这 台 强 大 的 计算 机 就 是 地 球 自己 。 运 行 这 个 算法 的 真正 计 


算 机 应 该 比 地 球 这 台 “ 计 算 机 ”运转 得 更 快 、 数 据 密 集 性 更 低 。 哪 一 个 
模型 更 适合 终极 算法 : 进化 还 是 大 脑 ? 这 是 和 机 器 学 习 有 关 、 目 然 与 
培育 之 则 的 辩论 。 正 如 我 们 的 存在 依靠 的 是 目 然 与 培育 的 共同 力量 ， 
也 许 真 正 的 终极 算法 包含 这 两 个 方面 。 


来 目 物理 学 的 论证 


在 1959 年 的 一 篇 著名 文章 中 ， 物 理学 家 、 庄 贝尔 物理 学 奖 得 主 万 
金 ' 维 格 纳 惊叹 “数学 在 目 然 科 学 中 不 可 思议 的 有 效 性 ”。 由 少量 的 观察 
推导 出 规律 ， 是 什么 神奇 的 力量 让 这 些 规律 可 以 运用 到 超出 其 预测 范 
围 的 领域 ? 这 些 规律 都 症 基 于 数据 得 来 的 ， 而 为 什么 这 些 规律 比 数 据 
还 要 准确 好 几 个 数量 级 ? 最 重要 的 征 ， 为 什么 简洁 、 抽 和 象 的 数学 语言 
能 够 如 此 精确 地 解释 我 们 无 限 复杂 的 世界 ? 维 格 纳 觉 得 这 是 一 个 很 大 
的 访 ， 沉 得 既 骏 运 又 无 法 理解 。 数 学 就 古 如 此 ， 而 且 终 极 算法 就 古 其 
逻辑 的 延伸 。 


如 条 这 个 世界 仅仅 是 一 个 不 断 变 大 、 哈 哗 嗜 杂 的 困惑 体 ， 那 么 我 
们 有 理由 怀疑 通用 学 习 算 法 的 存在 。 但 如 果 我 们 所 经 历 的 一 切 ， 仅 仅 
征 几 个 简单 规律 的 产物 ， 那 么 单个 算法 能 推导 出 所 有 一 切 能 推导 的 东 
西 ， 束 是 可 以 理解 的 。 终 极 算法 要 做 的 就 古 提 供 一 条 捷径 ， 通 过 实际 
观察 ， 用 简短 的 算式 推导 (而 不 是 长 长 的 算式 ) 来 得 出 这 些 规律 的 结 
果 。 


例如 ， 我 们 虽然 相信 物理 定律 引起 进化 ， 但 是 不 知道 具体 怎么 进 
行 。 我 们 知道 目 己 可 以 像 达尔 文 那样 ， 通 过 观察 直接 推导 出 目 然 选 择 
规律 。 无 数 错误 的 推论 束 是 由 那些 观察 得 出 的 ， 但 多 数 人 不 会 做 出 那 
些 错 误 的 推论 ， 因 为 我 们 对 世界 有 着 广泛 的 认识 ， 会 对 目 己 的 推论 形 
成 良性 影响 ， 而 且 那 些 认 识 也 与 自然 规律 相符 。 


物理 规律 之 美 多 大 程度 渗透 到 更 高 的 领域 (如 生物 学 、 社 会 
学 ) ， 这 一 点 有 待 观察 。 但 对 混沌 的 研究 提供 了 许多 诱 人 的 例子 ， 这 
些 例子 和 拥有 相似 行为 的 不 同系 统 相 天， 而 普 适 性 理论 可 以 解释 这 些 
例子 。 曼 德 布 洛 特集 合 (Mandelbrot Set) 就 是 很 完美 的 例子 ， 能 解释 
一 个 很 简单 的 重复 程序 如 何 产 生 无 数 种 类 的 形式 。 如 有 果 世 界 上 的 山 
峰 、 河 流 、 云 水 以 及 树木 都 是 这 些 重复 程序 的 产物 〈 分 形 几何 学 表明 
它们 束 是 ) ， 也 许 那些 程序 只 是 单个 程序 的 不 同 参数 化 ， 而 该 单个 程 
序 可 以 从 那些 程序 推导 中 得 出 。 


在 物理 学 中 ， 适 用 于 不 同 数量 的 方程 ， 往 往 可 以 用 来 描述 发 生 在 
不 同 领 域 的 现象 ， 例 如 量子 力学 、 电 磁 学 、 流 体 动力 学 。 波 动 方程 、 
扩散 方程 、 泊 松 方程 表明 : 一 旦 我 们 在 某 个 领域 发 现 它 们 ， 也 很 快 能 
在 其 他 领域 发 现 它 们 :一旦 我 们 在 某 个 领域 介 得 解 开 它 们 ， 也 能 在 所 
有 领域 将 它们 解 开 。 此 外 ， 所 有 这 些 方程 都 很 测 单 ， 涉 及 几 个 和 和 至 
间 、 时 间 有 关 的 数量 的 相同 导数 。 很 容易 想象 ， 它 们 部 是 主 方程 的 几 
个 例子 ， 而 终极 算法 要 做 的 ， 束 是 用 不 同 的 数据 集 来 将 它 实例 化 。 


另外 的 证 据 来 目 最 优化 。 最 优化 是 数学 的 分 文 ， 关 注 的 是 为 函数 
找到 输入 值 ， 使 其 产生 最 大 输出 值 。 例 如 ， 找 到 购买 及 销售 股票 的 排 
序 ， 用 来 最 大 化 你 的 全 部 回报 ， 这 束 是 一 个 最 优化 问题 。 在 最 优化 
中 ， 简 单 的 函数 往往 能 引出 惊人 的 复杂 方案 。 最 优化 几乎 在 每 个 领域 
都 扮演 十 分 重要 的 角色 ， 包 括 和 科学、 技术、 商业， 还 有 机 妖 学 习 。 
个 领域 在 约束 条 件 下 进行 最 优化 ， 该 限制 条 件 由 其 他 领域 的 最 优化 状 
态 来 决定 。 我 们 努力 在 经 济 的 限制 下 将 幸福 感 最 大 化 ， 这 也 是 公司 在 
受到 当前 技术 水 平 限 制 下 的 最 佳 方案 ， 反 过 来 成 为 我 们 在 生物 学 及 物 
理学 限制 下 能 找到 的 最 佳 方案 。 反 过 来 ， 生 物 学 是 进化 学 在 物理 学 和 
化 学 的 约束 下 进行 优化 的 结 采 ， 而 物理 定律 本 身 又 是 最 优化 问题 的 解 
决 方法 。 因 此 ， 可 能 所 有 事物 的 存在 ， 都 是 一 个 中 心 优 化 问题 进一步 
的 解决 方案 ， 而 终极 算法 随 着 那个 中 心 问题 的 叙述 而 产生 。 


不 仅 物 理学 家 和 数学 家 在 寻找 不 同 领域 之 间 意 想不到 的 联系 ， 生 
物 学 家 也 在 寻找 。 在 《 论 夏 合 : 知识 的 统合 》 (Consilience) 一 书 
中 ， 著 名 生物 学 家 爱德华 : 威 尔 进 慷慨 激昂 地 阐释 了 知识 (从 科学 到 人 
文学 ) 的 统一 性 。 终 极 算法 就 是 该 统一 性 的 完美 表达 : 如 果 所 有 知识 
共同 遵循 一 个 模式 ， 那 么 终极 算法 就 存在 ， 反 之 则 不 存在 。 


然而 ， 物 理学 的 简洁 性 独一无二 。 在 物理 学 和 工程 学 之 外 ， 数 学 
的 轨迹 束 更 加 混合 。 有 时 数学 仅 限 于 用 起 来 有 效 ， 而 有 时 它 的 模型 又 
过 于 人 简单， 无 法 使 用 。 然 而 ， 过 于 简单 的 倾 回 源 于 人 类 思维 的 各 种 限 
制 ， 而 不 是 源 于 数学 的 种 种 限制 。 大 脑 的 大 多 数 硬 件 (或 许 该 叫 “ 温 
件 ”) 负责 人 体感 知 和 活动 ， 而 为 了 做 算术 ， 我 们 就 得 借用 因 语 言 得 到 
进化 的 那 部 分 大 脑 。 计 算 机 就 没有 这 样 的 限制 ， 而 且 可 以 轻易 地 将 大 
数据 变 成 非常 负责 的 模型 。 在 数学 的 过 度 有 效 性 与 数据 的 过 度 有 效 性 
面前 ， 你 就 会 选择 机 器 学 习 。 生 物 学 和 社会 学 绝对 不 会 像 物 理学 一 样 
简单 ， 但 我 们 发 现 其 真理 的 方法 可 以 做 到 那样 简单 。 


来 目 统计 学 的 论证 


根据 一 个 统计 学 流派 的 观点 ， 所 有 形式 的 学 习 都 是 基于 一 个 简单 
的 公式 一 一 如 我 们 所 知 ， 束 是 贝 叶 斯 定理 。 贝 叶 斯 定理 会 告诉 你 ， 每 
当 你 看 到 新 的 证 据 后 ， 如 何 更 新 你 的 想法 。 一 种 简单 的 贝 叶 斯 学 习 算 
法 对 世界 进行 一 系列 假设 ， 由 此 开始 进行 学 习 。 当 它 看 到 新 的 数据 
时 ， 与 该 数据 匹配 的 假设 更 有 可 能 会 成 立 (或 者 不 可 能 成 立 ) 。 在 观 
察 足 够 的 数据 后 ， 某 个 假设 会 成 立 ， 或 者 几 个 假设 同时 成 立 。 例 如 ， 
我 在 寻找 一 个 能 够 准确 预测 股票 走势 的 程序 ， 该 程序 预测 某 只 股票 会 
下 跌 ， 结 果 该 股票 却 上 涨 了 ， 那 么 该 程序 就 会 失去 我 的 信任 。 我 审核 
几 个 备 选 程序 之 后 ， 只 选择 了 几 个 可 信赖 的 程序 ， 它 们 概括 了 我 对 股 
票 市 场 的 新 认识 。 


贝 叶 斯 定理 就 是 将 数据 变 成 知识 的 机 器 。 据 贝 叶 斯 统计 学 派 的 观 
点 ， 贝 叶 斯 定理 是 将 数据 变 成 知识 的 唯一 正确 方法 。 如 果 该 学 派 的 观 
扩 正 确 ， 贝 叶 斯 定理 要 么 束 是 终极 算法 ， 要 么 就 是 推动 终极 算法 发 展 
的 动力 。 关 于 贝 叶 斯 定理 使 用 的 方法 ， 其 他 统计 学 派 持 非 常 保守 的 观 
点 ， 而 且 会 更 愿意 用 不 同方 法 来 对 数据 进行 学 习 。 在 计算 机 发 明 出 来 
之 前 ， 贝 叶 斯 定理 只 能 应 用 在 非常 答 单 的 问题 中 ， 说 它 是 通用 的 学 习 
算法 未 免 有 点 牵强 附会 。 然 而 ， 在 大 数据 和 大 计算 的 辅助 下 ， 贝 时 斯 
定理 在 广阔 的 假设 空间 中 找到 了 出 路 ， 而 且 已 经 扩展 到 每 个 人 们 能 想 
到 的 领域 中 。 如 有 果 说 存在 贝 叶 斯 算法 无 法 学 习 的 东西 ， 只 是 现在 还 没 
发 现 它们 。 


来 目 计 算 机 科学 的 论证 


我 在 大 四 时 ， 用 了 一 个 夏天 玩 俄罗斯 方块 游戏 ， 这 是 一 个 涉及 方 
块 琶 加 的 电子 游戏 ， 游 戏 中 由 正方 形 组 成 的 各 种 形状 的 图 案 往 下 挥 ， 
你 有 要 将 这 些 图 案 扒 起 来 ， 堆 得 越 紧密 越 好 。 如 采 图 案 堆 到 屏 疾 项 部 ， 
那么 游戏 殉 结 束 了 。 当 时 我 完全 没有 意识 到 ， 这 束 是 我 接触 NP 完 全 问 
题 忆 的 开始 ， 这 是 理论 计算 机 科学 最 重要 的 一 个 问题 。 后 来 我 才 知 
道 ， 俄 罗斯 方块 完全 不 是 简单 用 来 消 遗 的 游戏 ， 掌 握 这 个 游戏 ( 彻 扩 
掌握 它 ) ， 就 是 你 这 苗子 做 得 最 有 用 的 事情 。 如 果 你 一 步 到 位 ， 解 决 
了 俄罗斯 方块 问题 ， 你 束 解 决 了 科学 、 技 术 、 管 理 中 数 干 个 最 难 、 最 
有 意义 的 问题 ， 因 为 本 质 上 这 些 难题 惑 是 同一 个 问题 。 这 是 在 所 有 科 
学 领域 中 最 让 人 惊讶 的 事实 。 


卉 明日 蛋 日 质 如 何 折 县 成 特定 形状 ;通过 DNA 来 重新 构建 一 系列 
物种 的 进化 史 ; 在 命题 逻辑 中 证 明定 理 ; 利用 交易 成 本 来 发 现 市 场 中 
的 套利 机 会 ， 从 二 维 视 图 中 推出 三 维 形状 ;将 数据 压缩 到 磁盘 上 ; 在 
政治 活动 中 组 成 稳定 联盟 ; 在 瘟 切 流 中 模拟 满 流 ， 按 照 给 定 回 报 率 找 


出 最 安全 的 投资 组 合 、 到达 几 个 城市 的 捷径 、 微 芯片 上 元 件 的 最 佳 布 
局 方案 、 生 态 系 统 中 传 感 絮 的 最 佳 布局 、 目 旋 玻 璃 | 门 最 低 的 能 量 状 
仿 ; 安排 好 航班 、 诬 程 、 工 厂 工 作 ; 最 优化 资源 分 配 、 城 市 交通 流 、 
社会 福利 ， 以 及 提高 你 的 俄罗斯 方块 分 数 (最 重要 的 ) 这 些 都 是 
NP 完全 问题 ， 意 思 是 ， 如 果 你 能 有 效 解决 其 中 的 一 个 问题 ， 束 能 有 效 
解决 所 有 NP 类 问题 ， 包 括 相 互 间 的 问题 。 谁 会 猜 到 ， 这 些 表 面 上 看 起 
来 迎 然 不 同 的 问题 ， 会 是 同一 个 问题 ? 如 果 它 们 真 的 是 同一 个 问题 ， 
就 可 以 说 一 种 算法 能 学 会 解决 所 有 问题 《或 更 准确 地 说 ， 所 有 能 有 效 
解决 的 例子 ) 。 


在 计算 机 科学 中 ，P 和 NP 是 两 类 最 重要 的 问题 《很 遗憾 ， 名 字 不 
是 很 有 助 于 记忆 ) 。 如 果 我 们 能 有 效 解决 它 ， 那 么 这 个 问题 就 属于 P; 
如 有 果 我 们 能 有 效 找到 其 解决 方案 ， 那么 这 个 问题 属于 NP。 闭 名 的 
P=NP 的 问题 束 古 ， 能 有 效 找到 的 问题 是 否 可 以 得 到 有 效 解 决 。 因 为 
NP 完全 问题 ， 回 答 这 个 问题 需要 的 只 是 证 明 某 个 NP 完全 问题 可 被 有 效 
解决 (或 者 无 法 被 有 效 解决 。NP 在 计算 机 科学 领域 并 不 是 最 难 的 一 
类 问题 ， 但 可 以 说 ， 它 是 最 难 的 “现实 ”类 问题 : 如 果 在 宇宙 灭亡 之 
前 ， 你 无 法 找到 问题 的 解决 方法 ， 那 你 努力 解决 这 个 问题 的 意义 在 哪 
里 ? 人 类 擅长 给 出 NP 难题 的 近似 解 ， 而 相反 ， 我 们 感 兴趣 的 问题 (如 
俄罗斯 方块 问题 ) 往往 涉及 NP 问 题 。 人 工 智能 的 其 中 一 个 定义 是 ， 人 
工 智能 包括 找到 NP 完全 问题 的 所 有 局 发 性 解决 方案 。 为 了 找到 解决 方 
案 ， 我 们 第 第 把 问题 变 成 可 满足 性 问题 ， 也 就 古典 型 的 NP 完全 问题 : 
给 定 的 逻辑 公式 是 否 永 远 都 是 对 的 ， 或 者 它 是 不 是 目 相 矛盾 ? 如 采 我 
们 发 明 一 种 学 习 算法 ， 能 够 学 习 解 决 可 满足 性 问题 ， 那 么 有 充分 理由 
认为 ， 这 个 算法 就 是 终极 算法 。 


抛 开 NP 完 全 问题 ,计算 机 的 存在 本 映 束 明显 预示 着 终极 算法 的 存 
在 。 如 果 你 罕 越 回 到 20 世 纪 早 期 ， 告 诉 人 们 很 快 会 有 一 种 机 器 发 明 出 
来 ， 能 够 解决 人 类 所 有 领域 的 难题 一 所 有 难题 都 通过 同一 台 机 融 解 
决 ， 那 么 没有 人 会 相信 你 。 人 们 会 说 ， 每 台 机 需 只 能 解决 一 个 问题 : 


缝 幼 机 不 会 打字 ， 打 字 机 不 会 颖 纪 。1936 年 ， 艾 伦 : 图 灵 想 象 出 一 个 柯 
怪 的 装置 ， 它 有 一 条 纸 市 和 机 闫 头 ， 头 可 以 在 纸 市 上 进行 阅读 和 书 
写 ， 网 是 现在 人 们 知道 的 图 灵机 。 每 一 个 可 以 想得到 的 、 可 以 用 逻辑 
推理 解决 的 难题 ， 痢 可 以 通过 图 灵机 解决 。 此 外 ， 一 台所 请 的 万 能 图 
灵机 可 以 通过 阅读 纸 市 上 的 具体 要 求 来 模仿 所 有 东西 ， 换 句 话 说 ,我 
们 能 够 对 图 灵机 进行 编程 ， 用 它 来 做 所 有 事情 。 


算法 古 归 纳 的 过 程 ， 而 学 习 的 过 程 对 图 灵机 来 说 ， 就 古 演 绎 的 过 
程 。 图 灵机 能 通过 对 算法 输入 、 输 出 行为 进行 阅读 来 模仿 其 他 算法 。 
忠 像 存在 许多 与 图 灵机 对 等 的 计算 模型 ， 可 能 也 存在 通用 学 习 算 法 的 
许多 不 同 的 等 价 公 式 。 然 而 ， 问 题 的 天 键 古 必须 找到 第 一 个 这 样 的 公 
式 ， 束 像 图 灵 找 到 通用 计算 机 的 第 一 个 公式 那样 。 


机 厂 学 习 算 法 与 知识 工程 师 


当然 ， 有 很 多 人 文 持 终极 算法 ， 也 有 很 多 人 怀疑 终极 算法 。 当 某 
方法 可 以 简单 解决 复杂 问题 时 ， 存 在 怀疑 符合 情理 。 对 终极 算法 最 坚 
定 的 反抗 来 目 机 喜 学 习 永 恒 的 政 人 : 知识 工程 。 根 据 知 识 工程 文 持 者 
的 观点 ， 知 识 无 法 目 动 被 学 习 ， 必 须 通 过 人 类 专家 编 入 计算 机 ， 才 能 
对 它 进 行 学 习 。 的 确 ， 学 习 算 法 能 从 数据 中 提取 一 些 东 西 ， 但 你 不 能 
将 这 些 东 西 和 真知 识 混 为 一 谈 。 对 知识 工程 师 来 说 ， 大 数据 不 是 新 石 
油 ， 而 是 骄 人 的 新 蛇 油 。 


在 人 工 智能 出 现 早 期 ， 机 需 学 习 似 乎 是 通 往 类 人 智能 计算 机 的 途 
径 。 图 灵 和 其 他 人 认为 ， 机 器 学 习 是 唯一 看 似 合理 的 还 径 。 但 后 来 知 
识 工程 师 进行 了 回击 ， 而 且 20 世 纪 70 年 代 机 器 学 习 处 于 次 要 地 位 。 在 
20 世 纪 80 年 代 的 一 段 时 间 ， 似 乎 知识 工程 师 要 接管 世界 了 ， 还 有 许多 
企业 和 国家 对 知识 工程 领域 进行 大 量 投资 。 但 后 来 人 们 开始 对 该 领域 
失望 ， 而 机 硕 学 习 也 开始 崛起 ， 一 开始 展 无 声 电 ， 后 来 吕 突 飞 独 进 。 


尽管 机 器 学 习 成 功 了 ， 知 识 工程 师 们 还 是 觉得 不 信服 。 他 们 相 
信 ， 机 器 学 习 的 局 限 性 很 快 会 变 得 明显 ， 钟 摆 会 控 回 来 ， 局势 会 扭 
转 。 马 文明 斯 基 是 麻 省 理工 学 院 的 教授 、 人 工 智能 的 先驱 人 物 ， 也 是 
该 阵 昔 的 重要 成 员 。 明 期 基 不 仅 怀 疑 机 器 学 习 能 奉 代 知识 工程 ， 他 也 
怀疑 人 工 智 能 的 所 有 统一 思想 。 明 斯 基 在 其 《意识 社会 》 (The 
Society of Mind) 一 书 中 提 到 了 关于 智能 的 理论 ， 这 个 理论 可 以 被 不 客 
气 地 归纳 为 “意识 就 是 一 个 接 一 个 该 死 的 东西 ”7。《 意 识 社会 》 包 售 的 
瓯 是 一 长 串 分 散 的 观点 ， 每 个 观点 都 宣 不 相关 。 这 种 实现 人 工 智能 的 
方法 根本 没什么 用 ， 它 只 是 由 计算 机 进行 的 收集 活动 。 没 有 机 器 学 
习 ， 需 要 建立 智能 代理 的 观点 将 会 变 得 无 限 多 。 如 果 一 个 机 需 人 掌握 
了 人 类 所 有 的 技能 ， 但 就 是 没有 学 习 能 力 ， 那 么 人 类 不 久 束 会 把 它 殷 
ED 


明 斯 基 是 Cyc 项 目 (Cyc project) 的 狂热 支持 者 ， 这 是 人 工 智能 历 
史上 最 员 名 昭著 的 失败 项 目 。Cyc 项 目的 目标 是 通过 将 所 有 必要 知识 
输入 计算 机 中 ， 来 解决 人 工 智 能 问题 。20 世 纪 80 年 代 这 个 项 目 刚 开始 
时 ， 它 的 领导 者 道 格 - 莱 纳 特 (Doug Lenat) 就 信心 满 满 地 预测 ，10 年 
之 内 该 项 目 就 会 取得 成 功 。30 年 后 ，Cyc 项 目 不 停 扩大 ， 但 仍 无 法 做 
常理 性 推理 。 具 有 讽刺 意味 的 是 ， 莱 纳 特 终于 支持 通过 控 据 网 页 来 将 
Cyc 填 满 ， 这 并 非 因为 Cyc 可 以 阅读 ， 而 是 因为 别 无 他 法 。 


即使 奇迹 发 生 ， 我 们 能 够 对 所 有 必要 的 数据 进行 编程 ， 麻 烦 也 会 
不 断 出 现 。 过 去 儿 年 ， 儿 个 研究 组 已 经 党 试 构 建 完整 的 关 能 代理 ， 方 
法 整 古 将 所 有 算法 集中 起 来 ， 用 于 想象 、 语 首 识 别 、 语 言 理 解 、 推 
理 、 计 划 、 守 航 、 操 作 等 。 没 有 统一 的 结构 ， 这 些 壬 试 将 磁 到 “ 复 灯 
性 ?这 个 难以 解决 的 难题 : 有 太 多 的 活动 件 、 太 多 的 交互 、 太 多 的 漏 
洞 ， 可 怜 的 人 类 软件 工程 师 也 难以 应 付 。 知 识 工 程 师 相信 ， 人 工 智 能 
的 问题 仅仅 是 工程 学 的 问题 ， 但 是 我 们 还 没 达到 那个 点 一 一 工程 学 能 
带领 我 们 走 完 下 面 的 路 。1962 年 ， 肯 尼 迪 发 表 登 月 演讲 。 那 时 登 上 月 


球 是 一 个 工程 学 问题 ， 但 1662 年 ， 它 就 不 是 了 ， 而 当今 它 则 更 加 靠近 
人 工 智能 所 在 的 领域 。 


在 工业 领域 中 ， 除 了 在 一 些 利 基 领 域 ， 没 有 任何 迹象 表明 知识 工 
程 学 可 以 永远 和 机 器 学 习 竞 争 。 为 什么 要 人 花费 精力 来 让 专家 绥 慢 而 痛 
吾 地 将 知识 编码 成 计算 机 能 识别 的 形式 ， 而 你 明明 可 以 在 一 秒 内 将 其 
从 数据 中 提取 出 来 ? 你 会 怎么 对 每 那些 专家 不 届 ， 你 却 可 以 从 数据 中 
发 现 的 东西 ? 而 当 数据 不 足 时 ， 知 识 工程 学 的 成 本 倒是 很 少 会 超过 其 
带 来 的 益处 。 反 过 来 ， 想 象 一 下 ， 如 果农 民 要 将 每 株 玉米 进行 工程 
化 ， 而 不 去 播种 并 让 筷 们 生长 ， 那 么 我 们 都 得 换 饿 。 


男 一 个 对 机 器 学 习 持 怀疑 态度 的 人 是 语言 学 家 诺 姆 : 乔 姆 斯 基 。 乔 
姆 斯 基 认 为 ， 语 言 必须 是 与 生 俱 来 的 ， 因 为 孩子 听 到 的 合乎 语法 的 句 
子 仅仅 是 一 些 例子 ,不 足以 学 习 语法 。 然 而 ， 这 种 说 法 仅仅 将 学 习 语 
言 的 任务 交 给 了 进化 ， 它 并 没有 反对 终极 算法 ， 只 是 反对 “终极 算法 是 
大 脑 * 这 个 观点 。 此 外 ， 如 果 存 在 通用 语法 〈 乔 姆 斯 基 认 为 存在 ) ， 盖 
发 它 驳 是 阐发 终极 算法 的 步 又 之 一 。 这 种 情况 不 成 立 的 唯一 可 能 束 
征 ， 语 言 和 其 他 认 知 能 力 没有 共同 总， 考虑 到 进化 的 近 因 ， 这 令 人 难 
以 置信 。 


无 论 如 何 ， 如 果 我 们 将 乔 姆 斯 基 “ 刺 激 贫 乏 ” 论 形式 化 ， 我 们 会 发 
现 这 个 观点 很 明显 是 错 的 。1969 年 ， 霍 末 证 明 ， 概 率 上 下 文 无 天 语法 
(probabilistic context-free grammar) 只 能 通过 正面 例子 掌握 ， 后 面 紧 
跟 的 是 更 有 力 的 结果 〈 上 下 文 无 关 语法 是 语言 学 家 研究 的 内 容 ， 而 概 
率 类 型 模拟 每 个 规则 被 使 用 的 概率 ) 。 另 外 ， 语 言 学 习 不 会 发 生 在 一 
个 真空 当中 ， 孩 子 需要 从 父母 和 周转 环境 获取 各 种 语言 学 习 线 索 。 如 
果 我 们 能 从 几 年 时 间 里 学 习 的 例子 中 学 习 语 言 ， 部 分 也 只 是 因为 语言 
结构 与 世界 结构 存在 相似 性 。 对 这 个 共同 结构 ， 我 们 感 兴 趣 ， 而 且 从 
和 霍 宁 和 其 他 人 那里 知道 ， 有 这 个 共同 结构 就 足够 了 。 


总 体 来 讲 ， 乔 姆 斯 基 批 评 所 有 统计 学 习 。 他 把 统计 学 习 算法 不 能 
学 习 的 东西 列 了 一 个 单子 ， 但 这 个 单子 已 经 过 时 50 年 了 。 乔 姆 斯 基 似 
乎 把 机 恬 学 习 等 同 于 行为 主义 了 ， 根 据 行为 主义 ,动物 的 行为 沦 为 反 
应 与 交 励 之 间 的 联合 ， 但 机 器 学 习 不 是 行为 主义 。 现 代 学 习 算 法 能 够 
掌握 丰富 的 内 在 表象 ， 而 不 仅仅 是 刺激 物 之 间 的 两 两 关系 。 


最 后 ， 事 实 胜 于 雄辩 。 统 计 学 语言 算法 起 作用 了 ， 而 手工 设计 的 
语言 系统 却 没 起 作用 。 第 一 件 令 人 大 开眼 界 的 事 发 生 于 20 世 纪 70 年 
代 ， 当 时 五 角 大 楼 的 研究 机 构 DARPA 组 织 了 第 一 个 大 型 语音 识别 项 
目 。 让 所 有 人 惊讶 的 是 ， 一 种 简单 的 序列 学 习 算 法 一 一 乔 姆 斯 基 别 笑 
的 类 型 ， 轻 易 地 打败 了 一 个 复杂 的 知识 系统 。 现 在 像 这 样 的 学 习 算 法 
几乎 用 于 每 一 个 语音 识别 器 中 ， 包 括 Siri (苹果 公司 产品 上 的 一 项 智能 
语音 控制 功能 ) 。 弗 雷 德 ' 贡 里 尼克 〈IBM 语 音 研究 组 的 领导 ) 说 过 一 
句 闭 名 的 俏皮 话 : “每 开除 一 名 语言 学 家 ， 我 的 语音 识别 系统 的 错误 率 
吕 降 低 一 个 百分点 。?20 世 纪 80 年 代 ， 陷 入 知识 工程 学 的 泥 漂 里， 计算 
机 语言 学 震 点 走 同 尽头 。 目 那 以 后 ， 基 于 学 习 算法 的 当 潮 已 经 席卷 这 
个 领域 ， 在 计算 机 语言 学 会 议 中 ， 几 乎 每 篇 文章 都 会 提 到 学 习 。 统 计 
分 析 软 件 以 近乎 人 类 水 平 的 精确 度 来 分 析 文 章 ， 而 手 编程 序 已 经 远 远 
落 在 后 面 。 机 器 翻译 、 拼 写 纠正 、 词 性 标注 、 词 义 消 歧 、 问 题 回 答 、 
对 话 、 概 括 一 一 这 些 领域 的 所 有 最 好 的 系统 都 利用 了 学 习 。 没 有 学 
习 ， 沃 森 不 可 能 在 《危险 边 绿 》 游 戏 中 战胜 人 类 。 


对 此 ， 乔 姆 斯 基 可 能 会 回应 ， 工 程 学 的 成 功 并 不 能 证 明 其 科学 有 
效 性 。 换 句 话说 ， 如 末 你 的 楼 房 倒塌 了 ， 而 且 你 的 发 电机 不 工作 了 ， 
那么 也 许 束 是 因为 你 的 物理 学 观 所 有 问题 。 乔 姆 斯 基 认 为 ， 语 言 学 应 
该 把 重点 放 在 他 定义 的 “理想 的 ”说 话 者 和 听话 者 上 ， 这 让 他 忽略 了 诸 
如 类 似 的 问题 : 语言 学 习 过 程 涉及 统计 学 。 因 此 ， 很 少 有 实验 主义 者 
拿 他 的 理论 当 回 事 ， 这 并 不 奇怪 。 


另外 一 个 可 能 会 反对 终极 算法 的 观点 来 自 心 理学 家 杰 瑞 ' 福 多 ， 他 
认为 心理 是 由 一 系列 模块 组 成 的 ， 这 些 模 块 之 间 只 有 有 限 的 联系 。 例 
如 ， 当 看 电视 时 ， 你 的 “高 级 脑 ” 知 道 ， 那 只 是 光线 在 光滑 表面 的 内 
烁 ， 但 视觉 系统 仍然 会 看 见 三 维 形 状 。 即 使 我 们 相信 心理 模块 理论 ， 
这 个 理论 也 并 没有 暗 指 不 同 的 模块 会 使 用 不 同 的 学 习 算 法 。 同 种 算法 
对 诸如 视觉 及 语言 之 类 的 信息 都 起 作用 ， 这 个 说 法 才 足 够 有 力 。 


像 明 斯 基 、 乔 姆 斯 基 和 福 多 这 样 的 批评 家 曾经 占据 上 风 ， 但 万 
幸 ， 他 们 的 影响 力 已 经 逐渐 减弱 。 即 便 如 此 ， 我 们 仍 需 将 他 们 的 批评 
铭记 于 心 ， 这 样 才 能 到 达 终 极 算 法 这 个 终点 ， 原 因 有 两 个 ， 第 一 ， 知 
识 工程 师 和 机 器 学 习 算 法 一 样 ， 遇 到 许多 相同 的 问题 ， 虽 然 他 们 没有 
成 功 ， 但 学 到 了 许多 宝贵 的 教训 ， 第 二 ， 学 习 和 知识 以 异 尝 微妙 的 形 
式 相 互 交织 ， 而 我 们 很 快 束 会 发 现 这 一 点 。 遗 憾 的 是 ， 这 两 个 阵营 各 
说 各 话 。 他 们 讨论 不 同 的 主题 ， 机 器 学 习 讨 论 概率 ， 而 知识 工程 学 讨 
论 逻辑 。 本 书后 面 会 提 到 如 何 解决 这 个 问题 。 


天 鹅 咬 了 机 器 人 


“无 论 你 的 算法 有 多 聪明 ， 总 有 它 无 法 掌握 的 东西 。” 除 了 人 工 智 
能 和 认 知 科学 ， 反 对 机 器 学 习 的 常见 观点 几乎 都 可 以 用 这 人 句 话 概况 。 
纳西 姆 . 塔 勒 布 (Nassim Taleb) 在 《 黑 天 笋 》 (The Black Swan) 一 书 
中 强调 了 这 个 观点 。 有 些 事 真 的 无 法 预料 。 如 有 果 你 只 见 过 白天 笋 ， 会 
觉得 看 到 黑 天 牧 的 概率 是 0。2008 年 的 金融 危机 束 是 一 只 “ 黑 天 牧 ”。 


有 些 事 可 预料 ， 而 有 些 事 却 不 能 预料 ， 这 个 说 法 是 正确 的 ， 而 机 
妖 学 习 算 法 的 陡 要 任务 就 是 区 别 可 预测 的 事 与 不 可 预测 的 事 。 但 终极 
算法 的 目标 是 要 学 习 一 切 能 认 知 的 东西 ， 这 比 塔 勒 布 和 其 他 人 想象 的 
要 三 阔 得 多 。 房 地 产 泡 沫 还 远 远 不 是 一 只 “ 黑 天 鹅 ”"， 相 反 ， 房 地 产 泡 
闲 古 经 过 人 们 普遍 预测 的 。 大 多 数 银行 的 模型 没 能 预测 它 的 到 来 ， 也 


只 征 因 为 那些 模型 的 局 限 性 ， 而 不 是 机 需 学 习 的 局 限 性 。 学 习 算 法 很 
擅长 精确 预测 黎 有 、 未 曾 发 生 的 事件 。 甚 至 你 也 可 以 说 ， 这 有 是 机 喜 学 
习 的 主要 任务 。 如 果 你 没 见 过 黑 天 和 殷 ， 那 么 它 出 现在 你 面前 的 概率 是 
多 少 ? 它 是 已 知 物种 的 一 部 分 ， 最 后 变 成 黑色 的 天 筷 ， 这 样 的 概率 是 
多 少 ? 这 仅仅 是 一 些 粗 略 的 例 和 于， 我 们 会 在 本 书 看 到 更 深刻 的 例子 。 


另外 一 个 反对 机 器 学 习 的 观点 与 以 上 观点 相关 ， 就 是 我 们 常 听 到 
的 一 一 “数据 无 法 代替 人 类 的 直觉 ”。 实 际 上 ， 这 句 话 可 以 反 过 来 : 人 
类 直觉 无 法 代替 数据 。 直 觉 就 是 你 在 不 知道 事实 的 情况 下 依靠 的 东 
西 ， 而 因为 你 不 常用 它 ， 所 以 直觉 非常 宝贵 。 但 如 果 证 据 摆 在 你 面 
前 ， 为 什么 还 要 拒绝 证 据 ? 统计 分 析 在 棒球 界 打败 球 探 (正如 迈克 尔 : 
刘易斯 在 《 魔 球 : 逆境 中 制胜 的 智慧 》 一 书 中 明确 记录 的 那样 ) ， 在 
品 酒 时 打败 内 行 。 统 计 分 析 能 做 很 多 事情 ， 我 们 每 天 都 能 看 到 新 的 例 
子 。 因 为 大 量 数据 的 涌 入 ， 证 据 与 直觉 的 界限 正在 迅速 改变 ， 而 正如 
所 有 革命 一 样 ， 要 抛弃 所 有 墨守成规 的 方法 。 如 果 我 是 Y 公 司 X 领 域 的 
专家 ， 我 就 不 想 被 菜 人 用 数据 推翻 。 行 业 里 有 人 句 话 : “多 听 听 顾客 的 
话 ， 而 不 是 HiPPO。” (HiPPO 是 “ 领 最 高 薪水 的 人 说 的 话 ” 的 简写 。) 
如 果 想 成 为 明天 的 权威 人 士 ， 你 要 依靠 数据 ， 而 不 是 与 之 斗争 。 


好 了 ， 有 人 会 说 ， 机 器 学 习 能 从 数据 中 找到 统计 规律 ， 但 它 绝 不 
会 发 现 更 深刻 的 东西 ， 如 牛顿 定律 。 可 以 说 ， 它 还 没有 找到 那样 深刻 
的 定律 ， 但 我 肯定 它 将 来 会 找到 。 尺 管 有 苹 末 落下 的 故事 ， 但 深刻 的 
科学 真理 并 不 钙 那 么 容易 就 能 获得 。 科 学 经 历 了 三 个 时 期 ， 布 拉 赫 时 
期 、 开 普 勒 时 期 、 牛 顿时 期 。 对 于 布 拉 医 时 期 ， 我 们 收集 了 很 多 数 
据 ， 束 像 第 谷 : 布 拉 幸 日 复 一 日 、 年 复 一 年 耐心 记录 行星 的 位 置 那样 。 
对 于 开 普 勒 时 期 ， 我 们 使 经 验 规律 符合 数据 ， 克 ® 像 开 普 勒 对 行星 运动 
所 做 的 那样 。 对 于 牛顿 时 期 ， 我 们 发 现 了 更 深刻 的 真理 。 大 多 数 科 学 
研究 和 布 拉 医 、 开 普 勒 所 做 的 工作 相似 ， 这 样 的 工作 就 古 科学 人 研究 的 
内 容 ， 像 牛顿 偶然 发 现 定 律 的 例子 则 少见 。 当 今 ， 大 数据 所 做 的 工作 
征 布 拉 赫 的 数 十 亿 倍 ， 机 融 学 习 的 工作 内 容 是 开 普 勒 的 数 百 万 倍 。 如 


果 (但 愿 如 此 ) 有 更 多 像 牛顿 偶然 发 现 定律 这 样 的 时 刻 ， 这 样 的 时 刻 
也 可 能 发 生 在 未 来 的 学 习 算 法 中 ， 或 者 发 生 在 未 来 手足 无 措 的 科学 家 
身上 ， 或 者 至 少 是 发 生 在 两 种 可 能 都 存在 的 情况 下 〈 当 然 ， 诡 贝尔 奖 
会 颁发 给 科学 家 ， 不 管 他 们 是 持 重 要 的 观点 ， 还 是 只 按 了 一 下 按钮 。 
学 习 算 法 就 没有 那样 的 志向 ， 要 拿 诺 贝尔 奖 ) 。 本 书 将 会 提 到 那些 算 
法 是 怎样 的 ， 并 推测 它们 会 发 现 什 么 ， 例如， 治愈 癌 症 的 方法 。 


终极 算法 是 狐狸 ， 还 是 刺 独 


我 们 有 必要 考虑 藏 得 更 深 、 反 对 终极 算法 的 观点 ， 这 个 观点 可 能 
征 所 有 反对 观点 中 最 严肃 的 一 个 。 这 个 观点 不 是 来 目 知识 工程 师 或 者 
不 满意 的 专家 ， 而 是 来 目 机 咒 学 习 实 践 人 员 。 假 设 我 是 持 反 对 观 的 机 
右 学 习 实 践 者 ， 可 能 会 说 :“ 终 极 算法 和 我 日 第 生活 看 到 的 不 一 样 。 我 
尘 试 用 许多 学 习 算 法 的 数 百 种 变形 来 解决 所 有 给 定 的 问题 ， 而 且 对 各 
类 不 同 问 题 都 会 有 更 好 的 算法 ， 那 么 单个 算法 (我 们 说 的 终极 算法 ) 
皇 么 可 能 代替 所 有 这 些 算法 ? ” 


这 个 问题 的 答案 是 : 的 确 如 此 。 不 用 莹 试 多 种 算法 的 数 百 种 变 
形 ， 而 只 用 笑 试 单个 算法 的 数 百 种 变形 ， 这 不 是 更 轻松 吗 ? 只 要 我 们 
和 弄 明日 ， 每 个 算法 中 重要 的 与 不 重要 的 东西 ， 重 要 部 分 的 共同 点 ， 以 
及 这 些 部 分 如 何 进 行 互补 ， 那 么 我 们 真 的 可 以 从 这 些 多 种 算法 中 合成 
一 个 终极 算法 。 这 台 旦 我 们 在 本 书 中 要 做 的 事情 ， 或 者 说 尽 可 能 要 做 
到 的 事情 。 杀 爱 的 读者 ， 也 许 你 在 阅读 本 书 时 ， 会 有 目 己 的 一 些 观 
点 。 


终极 算法 会 复杂 到 什么 程度 ? 它 包 含 儿 于 行 代码 ? 还 是 几 百 万 
行 ? 我 们 现在 还 不 知道 ， 但 机 需 学 习 有 一 段 可 喜 的 历史 : 简单 的 算法 
意外 地 将 精心 设计 的 算法 打败 了 。 在 《人 工科 学 》 (The Sciences of 
the Artificia) 一 书 的 著名 章节 中 ， 人 工 智 能 先驱 人 物 、 诺 贝尔 奖 得 主 


赫 伯 特 : 西 蒙 (Herbert Simon) 让 我 们 想象 蚂蚁 费力 地 穿 过 沙滩 回 家 。 
蚂蚁 的 路 线 非 常 复杂， 这 不 是 因为 蚂蚁 本 吴 复 杂 ， 而 是 因为 沙滩 这 个 
环境 对 蚂蚁 来 说 意味 着 要 有 把 很 多 山 开 ， 绕 很 多 卵石 。 如 果 我 们 通过 对 
每 条 可 能 的 路 线 进 行 编 程 ， 模 仿 蚂 蚁 ， 那 么 我 们 注定 会 失败 。 同 样 ， 

在 机 器 学 习 中 ， 复 杂 性 存在 于 数据 中 。 终 极 算 法 需要 做 的 束 是 消化 复 
杂 性 ， 因 此 ， 如 有 果 终 极 算 法 变 得 非常 简单 ， 那 么 我 们 也 不 用 感到 惊 
讶 。 虽 然 人 类 的 手 很 简单 (四 个 手指 ， 一 个 大 拇指 ) ， 但 是 它 却 可 以 
制作 并 使 用 无 数 种 工具 。 终 极 算法 与 算法 的 关系 ， 束 如 同 手指 与 钢 
笔 、 剑 、 螺 丝 刀 、 又 子 的 关系 。 


正如 以 赛 亚 伯 林 明确 提出 的 那样 ， 有 些 思想 家 束 是 狐狸 一 一 他 们 ] 
知道 许多 微小 的 事情 ; 而 有 些 思想 家 则 是 刺 猜 一 一 他 们 知道 一 件 大 
事 。 学 习 算 法 也 十 同 样 的 情况 。 我 希望 终极 算法 是 一 只 刺 狂 ， 但 即使 
它 是 只 狐狸 ， 我 们 也 没 法 很 快 抓 住 尼 。 当今 学 习 算 法 最 大 的 问题 ， 不 
征 它 们 数量 太 多 ， 而 是 尽管 它们 有 用 ， 却 不 能 完成 我 们 让 筷 们 做 的 所 
有 事情 。 我 们 利用 机 器 学 习 来 发 现 深刻 的 真理 之 前 ， 得 先 找 到 关于 机 
妖 学 习 的 深刻 真理 。 


我 们 正面 临 什么 危机 


假设 你 被 诊断 患 有 瘤 钙 ， 而 且 传 统 疗法 (手术 、 化 疗 、 放 疗 ) 都 
失败 了 ， 那 么 接 下 来 发 生 的 事情 束 会 决定 你 是 活 下 去 ， 还 是 走 到 生命 
尽头 。 第 一 步 驶 生 要 对 肿瘤 进行 基因 排序 。 诸 如 在 剑桥 、 马 院 诸 赛 州 
的 基础 医学 公司 会 为 你 做 这 些 工 作 : 把 肿瘤 样本 邮寄 给 他 们 ， 然 后 他 
们 会 发 给 你 一 个 列表 ， 列 表 是 已 知 的 、 和 癌症 相关 的 基因 变异 。 这 个 
步 又 十 分 有 必要 ， 因 为 每 种 癌症 都 不 一 样 ， 单 种 药 不 可 能 治疗 所 有 冯 
症 。 当 瘤 症 扩散 到 全 映 时 会 变异 ， 通 过 目 然 选择 ， 最 能 抵抗 你 所 服用 
药物 的 变异 细胞 最 有 可 能 继续 会 生长 。 对 你 有 用 的 药物 可 能 只 对 5% 的 


病人 有 用 ， 或 者 你 需要 结合 其 他 药物 一 起 服用 ， 这 些 药 可 能 你 之 前 从 
未 服用 过 。 也 有 可 能 要 设计 一 种 新 药 ， 专 门 治 疗 你 的 癌症 ， 或 者 需要 
一 系列 的 药 来 避 开 冶 症 的 适应 性 。 这 些 药物 可 能 会 有 副作用 ， 而 且 对 
你 来 说 会 致命 ， 但 对 其 他 很 多 人 来 说 可 能 没有 问题 。 即 使 了 解 你 的 病 
历 和 癌 证 基因 ， 也 没有 哪个 医生 可 以 记录 你 所 有 的 病情 ， 以 便 预 测 最 
好 的 疗法 。 对 机 需 来 说 ， 这 是 一 个 完美 的 任务 ， 但 当今 的 学 习 算法 还 
无 法 完成 这 个 任务 。 终 极 算法 丈 是 一 个 完整 包 : 将 终极 算法 应 用 于 大 
量 的 患者 及 药物 数据 中 ， 同 时 参考 从 生物 医学 文献 中 挖掘 的 知识 ， 这 
忠 是 我 们 将 来 治疗 冶 症 的 方法 。 


许多 领域 迫切 需要 通用 学 习 算 法 ， 包 括 与 生死 有 关 的 领域 以 及 普 
通 领域 等 。 你 可 以 想象 理想 的 推荐 系统 是 什么 样 的 ， 它 能 推荐 书籍 、 
影 以 及 小 玩意 儿 ， 它 们 正 是 你 有 时 间 慢 慢 细 看 时 会 挑选 的 东西 。 亚 
马 进 的 算法 与 这 个 系统 则 大 相 径 庭 ， 部 分 是 因为 亚马逊 的 算法 没有 足 
够 的 数据 一 一 它 知道 的 主要 信息 仅仅 是 你 之 前 从 亚 马 进 购 买 的 东西 
一 一 但 如 采 你 气 疯 了 ， 把 目 出 生 以 来 能 想到 的 东西 部 一 股 脑 地 输 给 
它 ， 那 么 它 束 不 知道 该 拿 这 些 东 西 脏 么 办 了 。 你 如 何 将 生活 的 万 论 
简 、 做 过 的 各 类 选择 转化 成 连贯 的 画面 ， 用 来 告诉 你 : 你 是 谁 ， 你 想 
要 什么 ? 这 是 当今 学 习 算 法 无 法 理解 的 。 但 有 了 足够 的 数据 ， 终 极 算 
法 将 能 够 大 概 了 解 你 以 及 你 最 好 的 朋友 。 


未 来 某 一 天 ， 每 个 房间 都 会 有 一 个 机 器 人 ， 做 饭 、 铺 床 ， 甚 至 在 
父母 去 上 班 时 照看 孩子 。 这 一 天 要 多 久 才 来 ， 取 决 于 寻找 终极 算法 的 
过 程 有 多 艰难 。 如 果 我 们 能 做 的 ， 只 是 将 许多 不 同 的 学 习 算 法 结合 起 
来 ， 每 种 算法 只 能 解决 人 工 智 能 的 一 小 部 分 问题 ， 那 么 很 快 我 们 束 会 
撞 到 复杂 性 这 堵 载 。 这 种 零碎 的 方法 在 《危险 边缘 》 比 赛 中 奏效 了 ， 
但 很 少 有 人 相信 ， 示 来 的 家 用 机 器 人 就 古 沃 森 的 子 下 。 这 并 不 是 说 终 
极 算 法 会 单枪匹马 破解 人 工 智能 的 难题 ， 还 有 许多 伟大 的 工程 要 完 
成 ， 沃 森 就 是 一 个 很 好 的 开始 。 但 “二 八 原则 ”也 适用 : 终极 算法 会 提 
供 80% 的 方案 ， 做 20% 的 工作 量 ， 所 以 这 有 是 开始 的 最 佳 时 机 。 


终极 算法 对 技术 的 影 不 仅 限 于 人 工 智能 。 通 用 的 学 习 算 法 是 打击 
复杂 性 怪兽 的 有 力 武 大 。 当 今 人 类 建立 起 来 的 很 复杂 的 系统 将 来 会 变 
得 简单 。 计 算 机 会 在 我 们 更 少 的 辅助 下 做 更 多 的 事情 。 它 们 不 会 不 断 
重复 同一 些 错 误 ， 而 会 像 人 一 样 ， 从 实践 中 学 习 经 验 。 有 时 ， 束 像 传 
说 中 的 管家 ， 我 们 还 没 说 想 要 什么 ， 计 算 机 就 已 经 移 猜 出 来 了 。 如 采 
计算 机 能 让 我 们 变 聪明 ， 那 么 运行 终极 算法 的 计算 机 会 让 我 们 感觉 目 
己 束 是 天 才 。 技 术 进 步 的 步伐 会 明显 加 快 ， 不 仅仅 在 计算 机 科学 ， 在 
许多 不 同 的 领域 也 会 这 样 。 这 就 反 过 来 推动 经 济 发 展 ， 降 低 贫困 率 。 
终极 算法 会 辅助 汇总 和 传播 知识 ， 这 样 一 个 机 构 的 情报 会 比 其 各 个 分 
机 构 的 情报 总 数 还 要 多 ， 而 不 会 更 少 。 日 党 工作 将 目 动 化 完成 ， 并 由 
更 有 意思 的 工作 来 代 奉 。 每 项 工作 都 会 比 当今 完成 得 更 好 ， 无 论 这 个 
工作 古 由 更 熟练 的 人 、 计 算 机 ， 或 者 通过 二 者 的 结合 来 完成 。 股 市 月 
盘 的 概率 会 越 来 越 低 ， 规 模 也 会 越 来 越 小 。 传 感 紫 会 在 地 球 上 形成 密 
集 的 网 格 ， 人 类 掌握 的 模型 会 持续 接收 终极 算法 输出 的 信息 ， 这 样 我 
们 就 不 会 盲目 飞行 了 ， 地 球 的 情况 会 变 得 越 来 越 好 。 你 的 一 个 模型 会 
代表 你 和 世界 进行 谈判 ， 和 其 他 人 及 实体 模型 玩 复杂 的 游戏 。 因 为 有 
了 这 由 人 全 更 发 守信 要 于 介 也 珊 S 


因为 反对 观点 的 潜在 影响 太 大 ， 我 们 应 该 努力 发 明 终极 算法 ， 哪 
怕 成 功 的 概率 很 低 。 即 使 这 个 过 程 会 很 信 ， 但 找到 一 种 通用 学 习 算 法 
却 有 很 多 能 即刻 感受 到 的 好 处 。 其 中 一 个 束 古 我 们 能 通过 统一 观点 更 
好 地 了 解 机 器 学 习 。 有 太 多 的 商业 决策 是 在 不 了 解 统计 学 的 情况 下 做 
出 来 的 ， 而 统计 学 对 商业 决策 起 着 文 撑 作 用 。 事 情 本 该 不 是 这 样 的 。 
为 了 使 用 一 项 技术 ， 不 必 掌 握 其 内 部 工作 原理 ， 但 我 们 得 有 关于 它 的 
一 个 好 的 概念 模型 。 我 们 有 必要 知道 如 何 找到 收音 机 上 的 一 个 电台 ， 
或 者 懂得 如 何 调 音量 。 当 下 ， 那 些 不 是 机 顺 学 习 专 家 的 人 ， 对 学 习 算 
法 会 用 来 做 什么 ,没有 什么 概念 模型 。 我 们 使 用 谷歌 、 脸 书 时 驱动 的 
算法 ， 或 者 最 新 的 分 析 套 件 ， 有 反 像 一 辆 市 有 有 人 色 窗 户 的 黑色 紧 华 轿 
车 ， 在 某 个 夜晚 神秘 地 出 现在 我 们 的 家 门口 : 我 们 该 上 车 吗 ? 这 辆 车 
会 市 我 们 去 哪里 ? 现在 是 时 候 坐 在 司机 的 座位 上 了 。 明 日 不 同 的 算法 


所 做 的 假设 会 帮助 我 们 选择 合适 的 算法 用 于 工作 中 ， 而 不 是 从 偶然 出 
现 的 算法 中 随机 挑 一 个 用 ， 然 后 肪 受 它 好 几 年 ， 最 后 痛 天 地 领情 从 一 
开始 我 们 就 该 知道 的 东西 。 通 过 了 解 学 习 算 法 优化 的 内 容 ， 我 们 可 以 
肯定 筷 们 优化 的 是 我 们 关注 的 东西 ， 而 不 是 逆 在 盒子 里 的 东西 。 也 许 
最 重要 的 是 ， 一 旦 我 们 知道 特殊 的 学 习 算 法 得 出 的 结论 ， 束 会 知道 用 
这 些 信息 来 做 什么 一 一 该 相信 什么 ， 该 如 何 回报 发 明 者 ， 以 及 下 次 该 
如 何 取 得 更 好 的 结果 。 有 了 通用 学 习 算 法 (我 们 在 本 书 中 将 其 作为 概 
念 模型 ) ， 我 们 就 能 在 没有 认 知 负载 的 情况 下 ， 把 所 有 这 些 事 情 做 
完 。 机 器 学 习 本 质 上 是 简单 的 ， 我 们 只 需 前 掉 数 学 及 行 话 这 些 外 反 ， 
然后 把 最 里 面 的 “俄罗斯 套 娃 ”展示 出 来 。 


这 些 好 处 都 可 应 用 于 我 们 的 私人 生活 和 工作 中 。 我 们 在 现代 世界 
留 下 目 己 的 印记 ， 数 据 记录 了 我 们 的 每 一 个 印记 ， 但 我 们 应 该 如 何 充 
分 利用 这 些 数据 呢 ? 每 个 互动 都 有 两 个 方面 : 这 个 互动 为 你 完成 了 什 
么 ; 对 于 刚 和 你 交互 的 系统 ， 它 教会 了 这 个 系统 什么 。 和 慌 得 这 些 是 在 
21 世 纪 过 上 幸福 生活 的 第 一 步 。 教 授 学 习 算法 ， 这 些 算 法 焉 会 为 你 服 
务 ， 但 首先 你 得 了 解 它 们 。 我 工作 的 哪些 部 分 可 以 交 给 学 习 算 法 来 完 
成 ， 哪 些 不 可 以 ? 最 重要 的 是 ， 我 该 如 何 利 用 机 器 学 习 把 工作 做 得 更 
好 ? 计算 机 是 你 的 工具 ， 而 不 是 对 手 。 有 了 机 硕 学 习 的 辅助 ， 经 理会 
变 成 超级 经 理 ， 科 学 家 会 变 成 超级 科学 家 ， 工 程 师 会 变 成 超级 工程 
师 。 未 来 属于 那些 深 深 懂得 如 何 将 目 己 的 独特 专长 与 算法 的 擅长 结合 
起 来 的 人 。 


也 许 终极 算法 就 像 一 个 潘多拉 盒子 ， 最 好 不 要 打开 。 计 算 机 会 妈 
役 甚至 消炎 我 们 吗 ? 机 器 学 习 会 变 成 独裁 者 或 者 邪 巡 公司 的 侍女 吗 ? 
知道 机 器 学 习 的 发 展 方向 有 助 于 帮助 我 们 了 解 该 担心 什么 、 不 该 担心 
什么 、 应 该 怎么 处 理 问 题 。《 终 结 者 》 中 ， 超 级 人 工 智能 变 得 有 人情 
感 ， 并 通过 机 器 人 军队 征服 了 人 人类。 这 个 场景 不 会 和 我 们 将 在 本 书 中 
谈 到 的 学 习 算 方法 一 起 发 生 。 因 为 计算 机 会 学 习 ， 并 不 意味 着 它们 可 
以 魔法 般 地 实现 目 己 的 愿望 。 学 习 算法 学 着 完成 我 们 为 它们 设 定 的 目 


标 ， 它 们 不 会 改变 这 些 目 标 。 我 们 要 担心 的 是 ， 它 们 服务 我 们 的 方法 
可 能 会 对 我 们 有 害 ， 而 不 是 有 花 。 因 为 它们 知道 的 东西 不 多 ， 改 善 的 
方法 吏 是 教 它们 更 好 的 方法 。 


很 多 时 候 ， 我 们 得 考虑 ， 如 果 终 极 算 法 落 入 坏人 手中 ， 它 会 做 些 
什么 。 第 一 道 防线 就 古 确 你 好 人 第 一 个 拿 到 它 ， 或 者 如 有 果 它 不 明日 谁 
是 好 人 ， 就 要 保证 它 是 开源 的 。 第 二 道 防线 就 是 要 意识 到 ， 无 论 学习 
算法 有 多 好 用 ， 也 只 古 在 获得 数据 时 好 用 。 控 制 了 数据 的 人 也 就 控制 
了 学 习 算 法 。 你 对 数字 化 生活 的 反应 ， 不 应 该 是 退回 到 木屋 中 一 一 树 
林 里 也 小 满 了 传感器 ， 而 应 努力 拿 到 对 你 来 说 重要 的 数据 。 能 有 推荐 
系统 为 你 找到 想 要 的 东西 ， 并 把 东西 市 给 你 ， 这 样 很 好 ， 没 有 这 些 系 
统 你 会 感到 失落 。 它 们 带 给 你 的 应 该 是 你 想 要 的 东西 ， 而 不 是 其 他 人 
想 让 你 拥有 的 。 控 制 好 数据 ， 控 制 好 算法 掌握 的 模型 的 所 有 权 ， 这 整 
古 21 世 纪 战 争 的 内 容 ， 这 些 战 争 可 能 会 发 生 在 政府 、 企 业 、 工 会 以 及 
个 人 之 间 。 为 了 共同 利益 ， 你 也 有 道德 义务 来 分 至 数据 。 只 依靠 机 器 
学 习 不 能 治 钝 癌症， 依靠 癌症 病人 却 可 以 做 到 这 一 点 ， 方 法 就 是 为 了 
将 来 的 病人 ， 分 至 目 己 的 信息 。 


新 的 万 有 理论 


当今 的 科学 已 经 被 彻底 四 分 五 农 ， 束 像 巴 别 塔 中 的 亚 社会 都 说 着 
目 己 的 倡 语 ， 只 能 看 到 相 邻 的 几 个 亚 社会 。 终 极 算法 会 给 出 所 有 学 科 
的 统一 思想 ， 并 有 潜力 提出 一 套 新 的 万 有 理论 。 乍 一 看 ， 这 个 说 法 可 
能 会 有 点 柯 怪 。 机 品 学 习 所 做 的 ， 束 是 从 数据 中 引出 理论 。 终 极 算法 
本 身 如 何 能 发 展 为 一 套 理 论 ? 难道 弦 理论 古 万 有 理论 ， 而 终极 算法 和 
万 有 理论 没有 任何 相似 点 ? 


为 了 回答 这 些 问题 ， 我 们 得 首先 明日 什么 是 科学 理论 ， 什 么 不 
征 。 理 论 征 关于 世界 是 什么 的 一 系列 约束 条 件 ， 而 不 是 对 世界 的 完整 


描述 。 为 了 获得 对 世界 的 完整 描述 ， 你 必须 将 理论 和 数据 结合 起 来 。 
例如 ， 想 想 牛顿 第 二 定律 。 定 律 说 明 力 等 于 质量 与 加 速度 的 乘积 ， 或 
者 写成 F=ma。 定 律 并 没有 说 明 坪 哪个 东西 的 质量 或 者 加 速度 ， 或 者 作 
用 力 是 什么 。 定律 只 要 求 ， 如 采 某 物体 的 质量 是 mm， 加 速度 是 oa， 那么 
作用 在 它 之 上 的 所 有 力 的 总 和 就 肯定 是 ma。 昌 然 该 定律 排除 了 宇宙 的 
某 些 自由 度 ， 但 没有 排除 所 有 。 所 有 其 他 物理 理论 也 都 如 此 ， 包 括 相 
对 论 、 量 子 力学 以 及 弦 理 论 ， 这 些 理论 其 实 都 是 对 牛顿 定律 的 完善 。 


理论 的 强大 之 处 在 于 它 简化 了 我 们 对 世界 的 描述 。 有 了 牛顿 定 
律 ， 我 们 首先 只 需 知 道 菜 个 时 间 点 所 有 物体 的 质量 、 状 态 、 速 度 ， 其 
次 吏 是 所 有 时 段 的 状态 及 速度 。 宽 借 过 去 、 未 来 宇宙 历史 中 可 区 分 时 
刻 的 数量 这 样 一 个 因素 ， 牛 顿 定律 概括 了 我 们 对 世界 的 描述 。 太 了 不 
起 了 ! 当然 ， 牛 顿 定律 也 仅仅 古 接 近 准 确 的 物理 定律 ， 因 此 让 我 们 用 
弦 理 论 来 蔡 代 它 ， 同 时 忽略 弦 理 论 是 否 永远 证 实 有 效 的 问题 。 我 们 能 
做 得 更 好 吗 ? 可 以 ， 有 以 下 两 个 原因 。 


第 一 ， 实 际 上 ， 我 们 没有 足够 的 数据 来 完全 确定 世界 ， 甚 至 忽略 
不 确定 性 原则 ， 准 确 知道 世界 上 所 有 粒子 某 个 时 间 点 的 状态 和 速度 ， 
也 远 远 做 不 到 。 因 为 物理 定律 古 混沌 的 ， 不 确定 性 随时 会 混 洒 进来 ， 
而 且 在 短 时 间 内 能 确定 的 东西 太 少 。 为 了 准确 描述 这 个 世界 ， 每 隅 一 
段 时 间 ， 我 们 就 需要 一 批 新 数据 。 实 际 上 ， 物 理 定律 只 告诉 我 们 局 部 
会 发 生 的 事情 。 这 一 点 大 大 削减 了 它们 的 力量 。 


第 二 ， 虽 然 我 们 在 某 个 时 间 点 拥有 关于 世界 的 完整 知识 ， 物 理 定 
律 还 是 不 能 让 我 们 确定 这 个 世界 的 过 去 和 未 来 。 这 是 因为 ， 确 定 世界 
的 过 去 和 未 来 所 需 的 全 部 计算 量 ， 对 于 能 想象 得 出 的 计算 机 来 说 ， 超 
出 了 它们 的 能 力 范 围 。 实 际 上 ， 为 了 完善 魔法 宇宙 ， 我 们 需要 男 外 一 
个 一 模 一 样 的 宇宙 。 这 也 是 为 什么 纺 理 论 多 数 情况 下 在 物理 学 之 外 丈 
变 得 无 天 紧要 了 。 我 们 在 生物 学 、 心 理学 、 社 会 学 或 者 政治 学 中 的 理 
论 ， 并 不 是 由 物理 定律 推理 得 来 的 ， 这 些 理论 得 从 零 开 始 构 建 。 我 们 


假定 ， 当 这 些 理论 应 用 到 细胞 、 大 脑 、 社 会 中 时 ， 它 们 就 是 物理 定律 
对 此 所 做 预测 的 近似 理论 ， 但 我 们 无 法 知道 。 


不 像 特定 领域 的 理论 只 在 该 领域 中 才 有 权威 ， 终 极 算法 在 所 有 领 
域 中 都 有 权威 。 在 X 领 域 中 ， 终 极 算法 不 如 X 领 域 的 主流 理论 有 权威 ， 
却 在 所 有 领域 中 比 该 主流 理论 有 权威 一 一 当 我 们 考虑 到 整个 世界 时 
一 一 终极 算法 普遍 比 所 有 其 他 理论 有 权威 得 多 。 终 极 算 法 是 所 有 理论 
的 起 产 。 为 了 获得 X 理 论 ， 我 们 要 给 终极 算法 添加 的 吏 是 推导 X 理 论 所 
需要 的 最 少量 的 数据 〈 在 物理 学 中 ， 需 要 添加 的 仅仅 是 大 约 几 百 个 重 
要 实验 的 结果 ) 。 结 果 就 是 ， 在 同样 的 情况 下 ， 终 极 算法 很 有 可 能 成 
为 万 有 理论 的 最 佳 出 发 点 。 请 史 带 分 .霍金 尿 泳 ， 和 弦 理 论 相 比 ， 终 极 
算法 最 后 会 告诉 我 们 更 多 关于 上 帝 思 考 的 东西 。 


有 些 人 可 能 会 说 ， 寻 找 通用 学 习 算 法 殉 是 一 种 追求 虚 采 心 的 表 
现 。 其 实 梦 想 并 不 是 追求 虚 采 心 ， 在 魔法 石 以 及 永 动机 并 局 作 战 下 ， 
也 许 终极 算法 在 众多 伟大 的 幻想 中 会 代 蔡 虚 采 心 的 位 置 。 寻 找 终极 算 
法 更 像 测定 海上 的 经 度 ， 人 们 一 开始 认为 这 太 困 难 ， 于 是 放弃 了 ,， 直 
到 一 个 孤独 的 天 才 解 决 了 这 个 问题 。 导 找 终极 算法 更 有 可 能 束 是 一 代 
一 代 人 的 任务 ， 驶 像 天 主教 符 是 由 一 块 块 石头 砌 成 的 一 样 。 找 到 终极 
算法 的 唯一 方法 就 是 ， 早 早 动 喘 踏 上 旅途 。 


未 达标 准 的 终极 算法 候选 项 


那么 ， 如 果 终 极 算法 存在 ， 它 是 什么 ? 看 起 来 很 明显 的 一 种 候选 
项 就 是 记忆 : 只 要 记 住 你 见 过 的 所 有 东西 ， 过 一 段 时 间 ， 你 束 好 像 见 
过 世上 的 一 切 东 西 ， 所 以 也 就 无 所 不 知 了 。 这 里 的 问题 是 ， 正 如 赫 拉 
克利 特 说 的 那样 ， 你 无 法 两 次 踏 入 同一 条 河流 。 世 上 的 东西 比 你 能 
到 的 多 得 多 。 无 论 你 观察 过 多 少 条 雪花 ， 下 一 条 还 是 会 不 一 样 。 即 使 


宇宙 大 爆炸 时 你 在 场 ， 但 从 那 以 后 无 论 在 哪里 ， 对 于 未 来 你 可 能 看 到 


的 事物 ， 你 现在 看 到 的 也 只 且 一 小 部 分 。 如 采 你 目睹 一 万 年 前 地 球 上 
的 生命 ， 也 不 会 对 你 未 来 将 看 到 的 东西 有 什么 影响 。 在 某 城 市 长 大 的 
人 搬 到 男 外 一 个 城市 ， 他 不 会 陷入 瘫痪 ,但 只 会 记忆 的 机 器 人 殊 会 陷 
入 瘫痪 。 此 外 ， 知 识 不 仅 古 事实 清单 ， 知 识 的 范围 很 广 ， 而 且 还 有 结 
构 。“ 人 固有 一 死 ? 比 70 亿 条 和 死亡 声明 要 简 污 得 多 。 记 忆 无 法 像 终极 算 
法 那样 让 我 们 做 到 这 些 。 


终极 算法 的 另外 一 个 候选 项 吏 是 微 处 理 右 。 计 算 机 里 的 微 处 理 需 
可 以 看 作 单 一 算法 ， 其 任务 是 执行 其 他 算法 ， 束 像 通用 的 图 灵机 那 
样 。 而 且 微 处 理 器 可 以 运行 一 切 可 以 想得到 的 算法 ， 这 由 它 的 内 存 和 
速度 上 限 决定 。 实 际 上 ， 对 一 台 微 处 理 器 来 说 ， 一 种 算法 也 只 是 男 外 
一 种 数据 。 这 里 的 问题 是 ， 如 采 微 处 理 器 单独 工作 ， 那 么 它 什么 也 不 
会 干 ， 它 只 会 行 在 那儿 ， 一 整 天 什么 也 干 不 了 。 它 运行 的 算法 从 哪里 
来 ? 如 果 这 些 算法 由 人 类 程序 员 来 编码 ， 那 么 束 不 会 涉及 任何 学 习 行 
为 。 即 便 如 此 ， 人 们 还 是 会 有 一 种 感觉 ， 认 为 微 处 理 右 是 终极 算法 的 
完美 模拟 。 微 处 理 右 不 是 运行 一 切 特 殊 算 法 最 好 的 硬件 ， 最 好 的 硬件 
应 该 是 特定 用 途 集 成 电路 ， 专 为 那 种 算法 而 精确 设计 。 我 们 却 把 微 处 
理 右 几乎 用 于 所 有 应 用 中 ， 因 为 即使 它 效 率 较 低 ， 但 却 非常 灵活 。 如 
果 我 们 得 为 每 个 新 的 应 用 构建 一 个 特定 用 途 集成 电路 ， 那 么 信息 章 命 
也 绝 不 会 发 生 。 同 样 ， 终 极 算法 也 不 是 学 习 一 切 特定 知识 最 好 的 算 
法 ， 最 好 的 算法 应 该 是 已 经 编码 了 大 多 数 知 识 的 算法 (或 者 说 所 有 知 
识 ， 这 样 数据 就 变 得 多 余 ) 。 问 题 却 在 于 从 数据 中 得 出 知识 ， 因 为 这 
样 做 更 简单 ， 成 本 也 更 低 ， 所 以 学 习 算 法 越 通用 越 好 。 


一 个 更 加 极端 的 候选 项 吏 是 普通 的 “或 非 门 ?>: 这 是 一 个 逻辑 开 
天 ， 只 有 输入 的 是 两 个 0 时 ， 才 会 输出 1°。 本 书 前 面 扣 到， 计算 机 是 由 
晶体 管 组 成 的 逻辑 门 构成 的 ， 所 有 的 运算 部 可 以 简化 
为 “有 旦 ”或 %* 非 ”逻辑 门 的 结合 。“ 或 非 门 ”只 是 一 个 “或 ”后面 接 着 一 
个 “ 非 ? 门 : 对 于 分 离 (“或 ”) 的 否定 ， 就 像 “ 只 要 我 不 挨 饿 或 生病 ， 我 
束 开 心 ” 这 人 句 话 的 意思 一 样 。“ 且 ”*“ 或 * 非 ”都 可 以 通过 “或 非 1]” 得 以 执 


行 ， 所 以 “或 非 门 ”可 以 做 所 有 事情 ， 而 实际 上 这 也 是 一 些微 型 处 理 句 
使 用 的 东西 。 那 么 为 什么 或 非 门 不 是 终极 算法 ? 当然 “或 非 门 ”的 位 滞 
无 与 伦比 ， 但 遗憾 的 是 ,，“ 或 非 1]” 不 十 终极 算法 ， 束 像 乐高 砖 不 是 万 
能 玩具 一 样 。 对 于 玩具 来 说 , “或 非 门 ?当然 可 以 是 一 种 万 能 建筑 材 
料 ， 但 一 堆 乐 高 砖 不 会 目 发 地 将 目 己 组 装 成 玩具 。 这 个 道理 同样 适用 
于 其 他 简单 的 运算 格式 ， 如 Petri 网 (Petri Net 是 对 离散 并 行 系统 的 数学 
表示 ) 或 细胞 自动 机 。 


这 里 将 谈 到 更 为 复杂 的 候选 项 。 那 些 所 有 可 以 回应 搜索 的 民 好 的 
数据 引擎 ， 或 者 统计 软件 包 里 的 简单 算法 怎么 样 ， 可 以 代替 终极 算法 
吗 ? 它们 还 不 足够 吗 ? 这 个 数据 引擎 和 位 单 算 法 是 更 大 的 乐高 肆 ， 但 
也 仅仅 是 在。 数据 引擎 无 法 发 现 新 东西 ， 只 能 告诉 你 它 知道 的 东西 。 
即使 数据 库 中 所 有 的 人 都 终究 会 死 ， 它 也 不 会 将 人 会 死 的 概率 推广 到 
其 他 人 身上 (数据 工程 师 看 到 这 一 点 会 大 吃 一 惊 ) 。 很 多 数据 只 是 和 
验证 假设 有 关 ， 但 总 得 有 人 先 提 出 假设 。 统 计 软件 包 可 以 做 线性 回归 
以 及 进行 其 他 简单 的 程序 ， 但 是 做 这 些 对 它们 能 学 的 东西 来 说 ， 限 制 
很 低 ， 无 论 你 提供 给 它们 多 少数 据 。 虽 然 更 好 的 软件 包 会 跳 过 统计 学 
和 机 器 学 习 的 灰色 地 市 ， 但 它们 还 是 无 法 发 现 许 多 种 知识 。 


好 了 ， 有 是 时 候 坦 日 了 : 终极 算法 就 古 等 式 U(X)=0。 这 个 等 式 不 仅 
适合 做 T 必 图案， 还 适合 做 邮票 图 案 。 啊 ? U(X)=0 表 达 的 是 菜 木 知 数 X 
(可 能 很 复杂 ) 的 某 画 数 U (可 能 很 复杂 ) 等 于 0。 每 个 等 式 都 可 以 简 
化 为 这 种 形式 ， 例 如 ，F=ma 等 于 F-ma=0， 那 么 如 果 你 把 F-ma 当 作 F 
的 一 个 函数 U， 则 UU(F)=0。 一 般 情况 ，X 可 以 是 所 有 输入 的 数据 ，U 可 
以 是 所 有 算法 ， 所 以 可 以 肯定 的 是 ,终极 算法 和 这 个 函数 同样 通用 ， 
那么 这 个 函数 束 一 定 征 终极 算法 了 。 当 然 ， 我 只 是 开玩笑 ， 这 个 函数 
不 古 终极 算法 ,但 它 指 出 了 机 器 学 习 中 的 真正 危机 : 想到 一 个 非常 通 
用 的 学 习 算 法 ， 里 面 却 没有 足够 的 东西 可 以 拿 来 用 。 


那么 为 了 可 以 拿 来 用 ， 一 种 学 习 算 法 至 少 要 有 多 少 内 容 呢 ?物理 
定律 够 了 吗 ? 毕竟 ， 世 界 上 的 一 切 都 遵守 物理 定律 (我 们 相信 是 这 样 
的 ) ， 而 且 这 些 定律 引出 进化 论 ， 而 通过 进化 论 ， 又 引出 与 大 脑 相 关 
的 学 科 。 那 么 也 许 终极 算法 殉 隐 减 在 物理 定律 中 ， 如 有 果 是 的 话 ， 我 们 
就 要 把 它 找 出 来 。 把 数据 输入 到 物理 定律 中 ， 不 会 有 新 的 定律 产生 。 
我 们 可 以 这 样 思 考 : 也 许 某 个 领域 的 主 理论 殉 是 物理 定律 ， 只 不 过 是 
将 该 物理 定律 编 成 对 该 领域 研究 来 说 更 方便 的 形式 。 如 果 是 这 样 ， 我 
们 整 需 要 一 种 算法 ， 可 以 找到 连接 该 领域 数据 与 该 领域 理论 的 捷径 ， 
而 不 知道 物理 定律 能 否 在 其 中 起 作用 。 另 外 一 个 问题 惑 是 ， 如 采 物 理 
定律 不 一 样 ， 终 极 算 法 还 是 有 可 能 在 许多 例子 中 找到 它们 。 数 学 家 喜 
欢 说 ， 上 帝 可 以 违反 物理 定律 ， 但 他 永远 不 能 违抗 逻辑 规律 。 也 许 的 
确 如 此 ， 但 逻辑 规律 是 用 来 演绎 的 。 除 了 归纳 ， 我 们 需要 的 是 对 等 的 
东西 。 


机 如 学 习 的 五 大 学 派 


当然 ， 我 们 不 必 从 零 开 始 寻 找 终极 算法 ， 而 有 几 十 年 的 机 器 学 习 
研究 可 以 利用 。 地 球 上 最 聪明 的 那些 人 已 经 把 他 们 的 毕生 贡献 给 发 明 
学 习 算 法 ， 而 有 些 人 甚至 声明 ， 他 们 手 上 已 经 有 通用 的 学 习 算 法 。 我 
们 会 站 在 这 些 巨人 的 肩膀 上 ， 但 对 这 样 的 声明 持 剑 守 态 度 。 这 样 的 声 
明 会 引起 相关 问题 : 出 现 的 一 种 和 终极 算法 相似 的 算法 ， 只 是 改变 了 
参数 ， 除 了 数据 还 有 最 小 量 输入 信息 ， 可 以 像 人 类 一 样 很 好 地 看 懂 视 
频 和 文本 ， 并 在 生物 学 、 人 类 学 以 及 其 他 学 科 中 有 重大 发 现 ， 如 采 是 
这 样 ， 我 们 怎么 知道 已 经 找到 了 终极 算法 ? 很 明显 ， 如 果 按 照 这 个 标 
准 ， 即 使 终极 算法 真 的 已 经 存在 ， 它 也 没 法 证 明 目 己 束 是 终极 算法 。 


关键 是 ， 终 极 算法 不 需要 在 遇 到 每 个 新 问题 时 ， 都 从 零 开 始 。 这 
个 标准 对 所 有 算法 来 说 都 太 高 了 ， 而 且 它 也 不 像 人 类 所 做 的 那样 。 例 


如 ， 语 言 无 法 存在 于 真空 中 ;如 采 没 有 该 学 科 的 相关 知识 ， 我 们 融 无 
法 理解 一 门 学 科 。 因 此 ， 当 学 习 阅 读 时 ， 终 极 算法 可 以 依靠 之 前 所 学 
的 东西 来 看 、 听 ， 以 及 控制 一 个 机 右 人 。 同 样 的 道理 ， 科 学 家 不 会 只 
征 言 目地 将 模型 和 数据 进行 配对 ， 他 们 会 利用 目 己 在 该 领域 的 知识 来 
解决 这 个 问题 。 因 此 ， 当 在 生物 学 领域 有 所 发 现时 ， 终 极 算法 会 首先 
阅读 它 需 要 的 生物 学 知识 ， 依 徘 的 古 之 前 束 学 会 的 阅读 技巧 。 终 极 算 
法 不 只 是 被 动 地 消耗 知识 ， 它 可 以 和 周围 的 环境 进行 互动 ， 然 后 积极 
寻找 它 想 要 的 数据 ， 束 像 机 絮 人 科学 家 “亚当 ”一 样 ， 或 者 像 所 有 探索 
世界 的 孩子 一 样 。 


我 们 寻找 终极 算法 的 过 程 是 复杂 且 活 路 的 ， 因 为 在 机 器 学 习 领 域 
存在 不 同 思想 的 学 派 ， 主 要 学 派 包括 符号 学 派 、 联 结 学 派 、 进 化 学 
派 、 贝 叶 斯 学 派 、 类 推 学 派 。 每 个 学 派 都 有 其 核心 理念 以 及 其 关注 的 
特定 问题 。 在 绿 合 儿 个 学 派 理念 的 基础 上 ， 每 个 学 派 都 已 经 找到 该 问 
题 的 解决 方法 ， 而 且 有 体现 本 学 派 的 主 算法 。 


对 于 符号 学 派 来 说 ， 所 有 的 信息 都 可 以 位 化 为 操作 符号 ， 束 像 数 
学 家 那样 ， 为 了 解 方程 ， 会 用 其 他 表达 式 来 代 蔡 本 来 的 表达 式 。 人 符号 
学 者 明日 你 不 能 从 零 开 始 学 习 : 除了 数据 ， 你 还 需要 一 些 原始 的 知 
识 。 他 们 已 经 弄 明 日 ， 如 何 把 先前 存在 的 知识 并 入 学 习 中 ， 如 何 结合 
动态 的 知识 来 解决 靳 问题 。 他 们 的 主 算法 是 逆 同 演绎 ， 逆 疝 演绎 致力 
于 弄 明 白 ， 为 了 使 演绎 进展 顺利 ， 哪 些 知识 被 省 略 了 ， 然 后 弄 明 日 十 
什么 让 主 算法 变 得 越 来 越 综合 。 


对 于 联结 学 派 来 说 ， 学 习 就 是 大 脑 所 做 的 事情 ， 因 此 我 们 要 做 的 
忠 是 对 大 脑 进行 逆向 党 绎 。 大 脑 通 过 调整 神经 元 之 则 连接 的 强度 来 进 
行 学 习 ， 关 键 问 题 是 找到 哪些 连接 导致 了 误 考 ， 以 及 如 何 纠正 这 些 误 
关 。 联 结 学 派 的 主 算法 息 反 回 传 播 学 习 算法 ， 该 算法 将 系统 的 输出 与 
想 要 的 结 采 相 比较 ， 然 后 连续 一 层 一 层 地 改变 神经 元 之 间 的 连接 ， 目 
的 是 为 了 使 输出 的 东西 接近 想 要 的 东西 。 


进化 学 派 认为 ， 所 有 形式 的 学 习 都 源 于 目 然 选择 。 如 有 果 目 然 选 择 
造 束 我 们 ， 那 么 它 束 可 以 造 束 一 切 ， 我 们 要 做 的 ， 束 是 在 计算 机 上 对 
它 进 行 模仿 。 进 化 主义 解决 的 关键 问题 是 学 习 结构 : 不 只 是 像 反 同 传 
播 那 样 调整 参数 ， 它 还 创造 大 脑 ， 用 来 对 参数 进行 微调 。 进 化 学 派 的 
主 算法 十 基因 编程 ， 和 目 然 使 有 机 体 交 配 和 进化 那样 ， 基 因 编 程 也 对 
计算 机 程序 进行 配对 和 提升 。 


贝 叶 斯 学 派 最 关注 的 问题 是 不 确定 性 。 所 有 掌握 的 知识 都 有 不 确 
定性 ， 而 且 学 习 知 识 的 过 程 也 是 一 种 不 确定 的 推理 形式 。 那 么 问题 融 
变 成 ， 在 不 破坏 信息 的 情况 下 ， 如 何 处 理 嘲 杂 、 不 完整 甚至 目 相 矛盾 
的 信息 。 解 决 的 办 法 就 古 运用 概率 推理 ， 而 主 算法 就 是 贝 叶 斯 定理 及 
其 衍生 定理 。 贝 叶 斯 定理 告诉 我 们 ， 如 何 将 新 的 证 据 并 入 我 们 的 信仰 
中 ， 而 概率 推理 算法 尽 可 能 有 效 地 做 到 这 一 点 。 


对 于 类 推 学 派 来 说 ， 学 习 的 关键 环 古 要 在 不 同 场景 中 认识 到 相似 
性 ， 然 后 由 此 推导 出 其 他 相似 性 。 如 果 两 个 病人 有 相似 的 症状 ， 那 么 
也 许 他 们 患 有 相同 的 疾病 。 问 题 的 天 键 是 ， 如 何 判 断 两 个 事物 的 相似 
程度 。 类 推 学 派 的 主 算法 是 文 持 癌 量 机 ， 主 算法 找 出 要 记忆 的 经 历 ， 
以 及 弄 明白 如 何 将 这 些 经 历 结 合 起 来 ， 用 来 做 新 的 预测 。 


每 个 学 派对 其 中 心 问 题 的 解决 方法 都 古 一 个 辉 焊 、 来 之 不 易 的 进 
步 ， 但 真正 的 终极 算法 应 该 把 5 个 学 派 的 5 个 问题 都 解决 ， 而 不 是 只 解 
决 一 个 。 例 如 ， 为 了 治愈 癌 症 ， 我 们 要 了 解 细胞 的 代谢 网 络 ， 哪 些 基 
因 调 市 哪些 别 的 基因 ， 由 此 产生 的 蛋 日 质 控 制 哪些 化 学 反应 ， 以 及 将 
新 微粒 加 入 混合 物 中 将 会 对 网 络 产 生 什 么 影响 。 从 零 开 始 努 力学 习 这 
些 东 西 显得 有 上 扣 患 夸 ， 因 为 这 种 做 法 忽略 了 过 去 几 十 年 生物 学 家 匠心 
积累 的 知识 。 符 号 学 派 公 得 如 何 将 这 些 知 识 与 来 目 DNA 测 序 仪 、 基 因 
表达 心 片 等 的 数据 结合 起 来 ， 并 得 出 结 采 。 只 有 知识 或 数据 ， 你 得 不 
出 这 些 结果 ， 可 十 我 们 通过 逆 回 演绎 得 到 的 知识 都 是 纯 定 性 的 。 我 们 
要 了 解 的 不 仅 是 谁 和 谁 奖 互 ， 还 有 可 以 交互 的 程度 ， 以 及 反 回 传播 如 


何 做 到 这 些 。 即 便 如 此 ， 如 果 没 有 某 个 基础 结构 ， 逆 加 演绎 和 反 同 传 
播 将 会 迷失 在 太空 中 。 有 了 这 个 基础 结构 ， 它 们 找到 的 交互 和 参数 才 
能 构成 整体 。 基 因 编 程 可 以 找到 这 个 基础 结构 。 这 时 ， 有 了 新 陈 代谢 
的 完整 知识 ， 以 及 给 定 病人 的 相关 数据 ， 我 们 就 可 以 为 他 找到 治疗 方 
法 。 但 实际 上 ， 我 们 拥有 的 知识 总 是 非常 不 完整 的 ， 甚 至 在 有 些 地 方 
会 出 错 。 即 使 如 此 ， 我 们 还 古 要 继续 进行 ， 这 也 束 是 概率 推理 的 目 
标 。 在 情形 最 困难 的 例子 中 ， 病 人 的 瘤 症 看 起 来 与 之 前 的 冶 症 病例 有 
很 大 不 同 ， 而 我 们 掌握 的 知识 对 此 也 束手无策 。 基 于 相似 性 的 算法 会 
扭转 大 局 ， 方 法 就 古 从 看 似 有 很 大 差别 的 情形 中 找到 相似 点 ， 把 重点 
放 在 相似 点 上 ， 然 后 忽略 其 他 不 同 点 。 


本 书 将 综合 出 一 个 拥有 所 有 这 些 功能 的 终极 算法 : 


我 们 对 终极 算法 的 妃 寻 之 旅 将 让 我 们 了 解 这 5 个 学 派 。 学 派 与 学 派 
相遇 、 谈 判 、 冲 突 的 地 方 ， 也 十 这 个 旅程 最 艰难 的 部 分 。 每 个 学 派 都 
有 上 自己 不 同 的 观点 ， 我 们 必须 将 这 些 观点 集中 起 来 。 机 器 学 习 算 法 和 
所 有 科学 家 一 样 ， 类 似 育 人 和 大 象 : 有 个 盲人 措 到 象 蜡 ， 就 以 为 那 是 
蛇 ， 男 一 个 盲人 靠 着 象 腿 ， 以 为 那 是 树 ， 还 有 一 个 盲人 措 到 和 象牙， 以 
为 那 古 公牛 。 我 们 的 目标 是 ， 摸 清楚 每 个 部 位 ， 而 不 是 过 早 下 结论 。 
一 旦 摸 到 所 有 部 位 ， 我 们 束 努 力 拼 出 整个 大 和 象 的 形象 。 将 所 有 信息 集 
中 起 来 变 成 解决 方案 的 方法 ， 并 不 是 很 容易 找到 ， 有 些 人 甚至 说 不 可 
能 找到 ， 但 这 束 是 我 们 要 做 的 事情 。 


进化 学 派 


组 成 动态 中 的 元 素 


映射 到 新 的 类 推 学 派 


情形 中 


图 2-1 


我 们 要 找到 的 算法 还 不 古 终极 算法 ， 原 因 我 们 在 下 文 会 提 到 ,但 
这 已 经 是 所 有 人 能 达到 的 、 最 接近 终极 算法 的 水 平 了 。 我 们 会 一 直 积 
聚 财富 ， 让 大 语 运 们 嫉妒 。 即 便 如 此 ， 本 书 仅仅 是 终极 算法 传奇 的 第 
一 部 分 。 第 二 部 分 的 主角 就 是 你 一 一 亲爱 的 读者 。 你 的 使 命 〈 如 有 果 你 
愿意 接受 ) 就 是 完成 寻找 终极 算法 之 旅 ， 然 后 把 战利品 拿 回 来 。 在 第 
一 部 分 我 将 是 你 失 微 的 导游 ， 从 这 里 出 发 ， 走 同 已 知 的 尽 涉 。 你 可 能 
抗议 说 目 己 懂 的 不 够 多 ， 或 者 算法 不 是 你 的 长 处 。 不 要 害怕 ! 计算 机 
科学 还 年 轻 ， 而 且 不 像 物理 学 或 生物 学 那样 ， 要 发 起 一 场 章 命 ， 你 并 
不 需要 博士 学 位 〈 可 以 去 问 问 比 尔 : 盖 次 、 谢 尔 盖 : 布 林 、 拉 里 : 佩 奇 、 
马克 - 扎 克 伯 殉 ) 。 洞 察 力 和 坚持 才 是 最 重要 的 东西 。 


你 准备 好 了 吗 ? 我 们 的 旅程 由 拜访 符号 学 派 开始 ， 这 个 学 派 的 历 
史 最 漫长 。 


1. NP 完全 问题 (non-determinstic polynomial completeness) ， 即 多 项 式 复杂 程度 的 非 


确定 性 问题 。 编者 注 


入 和 一 二 


下 二 早 | 
符号 学 派 : 休 误 的 归纳 问题 


你 是 理性 主义 者 还 是 经 验 主 义 者 ? 


理性 主义 者 认为 ， 感 官 会 其 包 人 ， 而 逻辑 推理 是 通 往 知 识 的 唯一 
可 靠 的 道路 。 经 验 主 义 者 认为 所 有 推理 都 古 不 可 靠 的 ， 知 识 必须 来 源 
于 观察 及 实验 。 法 国人 是 理性 主义 者 ， 妖 格 鲁 - 撤 克 还 人 (法 国人 就 这 
样 称呼 他 们 ) 是 经 验 主义 者 。 评 论 员 、 和 律师、 数学 家 钙 理 性 主义 者 ， 
记者 、 医 生 、 科 学 家 是 经 验 主义 者 。《 女 作家 与 谋杀 案 》 是 关于 犯罪 
的 电视 剧 ， 属 于 理性 主义 ，《 犯 徘 现场 调查 》 则 属于 经 验 主 义 。 在 计 
算 机 科学 领域 ， 理 论 家 和 知识 工程 师 属 于 理性 主义 者 ， 墨 客 和 计算 机 
学 习 者 属于 经 验 主 义 者 。 


理性 主义 者 喜欢 在 迈 出 第 一 步 前 ， 就 提前 规划 好 一 切 。 经 验 主义 
者 喜欢 答 试 狐 事 物 ， 然 后 看 看 结果 会 怎样 。 我 不 知道 理性 主义 和 经 验 
主义 是 否 都 有 专门 的 基因 ， 但 我 看 了 看 目 己 的 计算 机 科学 家 同事 ， 经 
过 反复 观察 ， 发 现 理 性 主义 者 和 经 验 主义 者 的 个 性 特点 几乎 一 样 : 有 
些 人 以 理性 主义 为 核心 ， 而 且 绝 不 会 改变 ; 其 他 人 则 是 彻 砌 的 经 验 主 
义 者 ， 示 来 也 不 会 改变 。 这 两 方 可 以 彼此 进行 对 话 ， 而 且 有 了 时候 还 可 


以 利用 彼此 的 定论 ， 但 他 们 对 彼此 了 解 仅 限 这 么 多 。 实 际 上 ， 每 方 都 
会 认为 对 方 做 什么 并 不 重要 ， 而 且 也 没什么 意思 。 


目 从 和 湖人 的 黎明 到 来 ， 理 性 主义 和 经 验 主义 也 许 束 已 经 出 现 。 在 
去 狸猫 之前， 原始 人 鲍 动 会 花 很 长 时 间 坐 在 洞 里 ， 思 考 要 去 哪里 打 
猎 。 同 时 ， 羡 大 女人 爱丽 丝 正在 外 面 系 统 地 调查 领土 。 这 两 种 方法 我 
们 都 还 在 使 用 ， 保 守 地 说 这 两 种 方法 没有 哪个 更 好 。 你 也 许 会 认为 ， 
机 器 学 习 就 古 经 验 主 义 最 终 胜 利 的 产物 ， 但 我 们 很 快 会 看 到 ， 真 理 总 
征 比 我 们 想 的 更 加 微妙 。 


理性 主义 与 经 验 主 义 古 哲学 家 最 热衷 讨论 的 问题 。 相 拉 图 十 早 期 
的 理性 主义 者 ， 而 亚 里 士 多 德 是 早期 的 经 验 主 义 者 。 关 于 这 个 问题 的 
汰 论 ， 真 正 开 始 于 启 壹 运动 时 期 ， 每 方 有 三 位 伟大 的 思想 家 : 什 卡 
儿 、 斯 宾 诡 水 、 沫 布 尼 泡 是 理性 主义 的 代表 ， 洛 元 、 贝 克 莱 、 休 吝 则 
征 经 验 主 义 的 代表 。 因 为 相信 和 目 己 的 推理 能 力 ， 理 性 主义 者 编造 出 宇 
宙 理 论 《委婉 地 说 ) ， 这 经 不 住 时 间 的 考验 ， 但 他 们 也 创造 了 基本 的 
数学 知识 ， 比 如 微 积分 和 解析 几何 。 经 验 主义 总 体 来 说 更 为 实际 ， 而 
且 它 们 随处 可 见 ， 从 科学 方法 到 美国 宪法 都 有 它们 的 身影 。 


大 卫 : 休 访 是 最 伟大 的 经 验 主义 者 ， 以 及 有 史 以 来 最 伟大 、 以 英语 
为 母语 的 哲学 家 。 诸 如 亚当 :斯 密 、 碍 尔 斯 ` 达 尔 文 之 类 的 思想 家 都 深 受 
其 影响 。 你 也 可 以 说 他 是 符号 学 派 的 守护 神 。 他 1711 年 生 于 苏格兰 ， 
大 半 硅 子 都 生活 在 18 世 纪 的 爱丁堡 (一 个 思想 活跃 的 繁 采 城市 ) 。 他 
虽然 性 情 瘟 和 ， 却 是 一 个 严格 的 怀疑 论 者 ， 化 了 大 半 奎 子 来 解 开 他 那 
个 时 代 的 难题 。 为 了 得 出 符合 有 逻辑 的 论断 ， 休 谋 借 用 了 洛克 开创 的 经 
验 主义 思想 ， 并 提出 一 个 问题 ， 这 个 问题 在 所 有 领域 的 知识 中 束 像 一 
把 达 摩 克利 斯 之 刘 ， 从 最 琐碎 的 领域 到 最 先进 的 领域 ， 都 是 一 个 时 刻 
存在 的 问题 : 在 概括 我 们 见 过 的 东西 以 及 没 见 过 的 东西 时 ， 怎 样 才能 
做 到 合理 ? 从 某 种 意义 上 说 ， 每 种 学 习 算 法 都 在 笑 试 回答 这 个 问题 。 


休 谍 的 问题 也 正 是 我 们 开启 寻找 终极 算法 之 旅 的 开始 。 首 和 ,我 
们 会 通过 日 第 生活 中 的 例子 来 解释 这 个 问题 ， 并 通过 现在 人 人 背 知 
的 “天 下 没有 免费 的 午餐 ”这 个 定理 来 体现 这 个 问题 。 然 后 我 们 会 看 到 
从 号 学 者 对 休 训 的 回答 。 这 把 我 们 引 辣 机 器 学 习 中 最 重要 的 问题 ， 不 
真实 存在 的 过 拟 合 或 幻觉 模式 。 我 们 会 看 到 符号 学 者 如 何 解 决 它 。 机 
右 学 习 本 质 上 是 一 种 炼金 术 ， 在 魔法 石 的 辅助 下 把 数据 变 成 知识 。 对 
于 符号 学 者 来 说 ， 魔 法 石 就 是 知识 。 在 接 下 来 的 4 草 中 ， 我 们 还 会 研究 
其 他 学 派 的 “炼金 术 ”。 


约 不 约 


你 有 一 个 很 喜欢 的 朋友 ， 想 找 她 出 来 约会 。 如 条 遭 到 拒绝 ， 你 会 
很 难过 ， 但 是 如 果 你 想 知道 她 会 不 会 答应 ， 也 只 能 去 问 她 。 现 在 是 周 
五 傍晚 ， 你 拿 着 手机 坐 在 那里 考虑 要 不 要 给 她 打 电话 。 你 记得 上 次 你 
问 过 她 ， 但 她 拒绝 了 。 但 是 为 什么 上 次 的 前 两 次 你 约 她 ， 她 都 答应 
了 ， 而 这 两 次 的 前 一 次 她 却 拒绝 了 ? 可 能 有 时 候 只 是 她 不 想 出 门 ? 也 
可 能 她 喜欢 泡 吧 而 不 喜欢 吃饭 ? 为 了 理 出 头绪 ， 你 移 放 下 了 手机 ， 写 
下 了 前 儿 次 的 情况 ( 见 表 3-1) 。 

表 3-1 约会 记录 


约会 方式 气 晚间 电视 节目 
吃饭 爱 不 好 看 


那么 答案 是 什么 ? 答应 还 是 不 答应 ? 有 没有 什么 模型 可 以 区 分 肯 
定 和 否定 ? 更 重要 的 是 ， 这 个 模型 会 如 何 决 定 今天 的 情况 ? 


很 明显 ， 没 有 哪个 因素 可 以 单独 准确 预测 出 答案 有 的 周末 她 喜 
欢 出 去 约会 ， 而 有 的 周末 她 却 不 想 出 去 ， 有 时 她 喜欢 去 泡 吧 ， 而 有 时 
她 又 不 喜欢 ..…... 把 所 有 因素 综合 起 来 会 怎样 ? 可 能 周末 她 喜欢 去 泡 
吧 ? 并 不 是 ， 第 四 次 约会 吏 排 除了 这 种 情况 ， 或 者 可 能 她 只 喜欢 天 气 
暖和 的 周末 晚上 出 去 约会 ? 是 的 ! 这 个 说 法 符合 之 前 的 情况 ! 看 了 看 
外 面 寒 冷 的 天 气 ， 好 像 今 晚 不 合适 。 可 是 等 一 下 ! 电视 不 好 看 的 晚上 
她 会 不 会 想 去 泡 吧 ? 好 像 这 也 符合 前 几 次 的 情况 ， 也 就 是 说 今天 可 以 
约会 ! 快 ， 快 点 打 给 她 ， 不 然 回 到 了 。 再 等 等 。 你 怎么 知道 这 是 对 的 
模型 ? 你 已 经 找到 两 种 情况 和 之 前 的 情况 相符 ， 但 这 两 次 的 预测 都 是 
否定 。 细 想 一 下 ， 如 有 果 她 只 想 天 气 好 的 时 候 去 泡 吧 ， 那 怎么 办 ? 或 者 
她 只 是 在 没什么 电视 好 看 时 的 周末 才 会 出 去 ? 或 者 .…… 


这 时 ， 你 灰心 地 把 画 好 的 表 揉 成 一 团 ， 于 到 垃圾 桶 里 。 没 有 办 法 
知道 她 会 不 会 答应 ! 你 能 做 什么 ? 休 诬 的 灵魂 伤心 地 在 你 的 肩膀 上 点 
头 。 你 没有 任何 依据 选择 这 个 而 不 是 男 外 一 个 。 对 于 “她 会 说 什么 ”这 
个 问题 ， 回 答 “ 是 ”或 “ 否 ” 的 可 能 性 都 一 样 。 时 钟 哮 噶 作 啊 ， 最 后 你 准 
备 抛 便 币 来 决定 。 


你 不 是 唯一 身 处 寡 境 的 人 一 一 我 们 都 是 。 我 们 才 开 始 寻 找 终极 算 
法 之 旅 ， 似 乎 束 已 经 过 到 无 法 克服 的 困难 了 。 有 没有 什么 办 法 可 以 从 
过 去 的 经 历 中 掌握 规律 ， 然 后 信心 满 满 地 运用 到 未 来 的 事情 中 ?” 如果 
没有 ， 那 么 机 右 学 习 不 殉 是 一 个 没有 硕 望 的 事业 了 吗 ? 束 此 而 言 ， 所 
有 学 科 甚至 所 有 人 类 的 知识 ， 不 束 随 时 可 能 会 被 推翻 吗 ? 


这 种 情况 不 是 大 数据 能 解决 的 问题 。 你 可 以 像 卡 院 诺 瓦 那 样 放 

水 ， 有 无 数 个 可 以 约会 数 儿 千 次 的 女人 ， 但 你 的 主 数据 库 还 是 不 知道 
这 次 这 个 女人 会 说 什么 。 即 使 今天 和 前 几 次 她 管 应 约会 的 情况 一 样 
(都 是 周末 、 一 样 的 约会 方式 、 一 样 的 天 气 、 一 样 的 电视 节目 ) ， 这 


也 并 不 意味 着 这 次 她 会 答应 你 出 去 约会 。 正 如 你 所 知道 的 那样 ， 她 的 
回答 由 一 些 你 不 知道 或 者 无 法 知道 的 原因 决定 。 也 或 者 她 的 回答 没有 
什么 别 的 原因 ， 只 是 随口 回答 ， 而 你 也 只 是 日 费力 气 地 从 之 前 的 情况 
中 找 规律 。 


目 休 误 提 出 归纳 问题 ， 哲 学 家 就 已 经 对 此 进行 辩论 ， 但 还 没有 人 
能 给 出 一 个 满意 的 答案 。 伯 特 兰 :罗素 喜欢 用 “归纳 主义 者 火 鸡 ”这 个 故 
事 来 表述 这 个 问题 。 故 事 的 主人 公 是 一 只 火 鸡 ， 它 来 到 农场 的 第 一 个 
早晨 ,主人 在 早上 9 点 喂 它们 ， 但 作为 实 实在 在 的 归纳 法 优越 论 者 ， 它 
不 想 过 早 下 结论 ， 主人 每 天 都 9 点 喂 它们 。 首 先 它 在 不 同情 况 下 观察 了 
很 多 天 ， 收 集 了 许多 观察 数据 。 主 人 连续 多 天 都 是 9 点 喂 它 们 ， 最 终 它 
得 出 结论 ， 认 为 主人 每 天 早上 9 点 喂 火 鸡 ， 那 么 主人 一 直 会 在 早上 9 抬 
给 它 喂 食 。 接 下 来 是 平安 夜 那 天 的 早晨 ， 主 人 没有 喂 它 ， 因 为 它 被 罕 
了 。 


如 采 休 谈 问 题 仅 仅 是 一 个 我 们 可 以 忽略 的 哲学 小 难题 ， 就 太 好 
了 ， 但 事实 并 非 如 此 。 例 如 ， 合 歌 的 业务 就 古 在 你 往 搜 索 框 输入 一 些 
关键 子 时 ， 猜 测 你 在 寻找 哪些 网 页 。 过 去 搜索 查询 的 人 所 输入 关键 子 
的 大量 记录 ， 以 及 他 们 点 击 的 、 相 应 查询 结 采 页 面 的 链接 ， 都 是 谷歌 
的 重要 资产 。 如 采 某 个 人 输入 一 组 关键 字 ， 而 这 上 尝 关 键 字 却 不 在 记录 
里 面 ， 你 该 怎么 办 ? 即便 关键 字 在 记录 中 ， 你 怎么 能 肯定 当前 用 户 想 
要 的 搜索 结 采 和 之 前 的 一 样 ? 


如 条 我 们 只 有 是 假 设 未 来 和 昨天 一 样 ， 那 么 会 怎样 呢 ? 这 当然 是 一 
个 有 风险 的 假设 〈 这 对 归纳 主义 者 火 鸡 就 不 会 才 效 ) 。 男 外 ， 没 有 这 
样 的 假设 ， 所 有 知识 将 不 复 存 在 ， 生 活 也 是 如 此 。 虽 然 有 很 多 不 确定 
性 ， 但 我 们 还 是 宁可 活 下 来 。 遗 憾 的 是 ， 虽 然 有 那样 的 假设 ， 但 我 们 
还 是 尚未 走出 困境 。 这 个 假设 还 得 应 付 这 些 “ 微 不 足 道 的 ”例子 : 如 采 
我 是 一 名 医生 ， 患 者 B 和 叫 者 A 有 一 模 一 样 的 证 状 ， 我 假设 两 人 的 诊断 
结 末 都 一 样 。 但 如 果 叫 者 B 的 症状 和 其 他 人 都 不 一 样 ， 我 惑 仍然 不 知 


道 如 何 做 诊断 。 这 属于 机 器 学 习 问 题 ， 将 某 结 采 推 广 到 我 们 没有 见 过 
的 事件 中 % 


也 许 这 也 不 是 什么 大 问题 ? 有 了 足够 的 数据 ， 大 多 数 事 件 不 就 变 
得 “微不足道 "了 吗 ? 不 是 的 。 我 们 在 前 面 的 章节 中 了 解 到 ， 为 什么 记 
忆 不 能 当 作 通 用 学 习 算 法 ， 我 们 现在 可 以 用 更 量化 的 方式 来 解释 这 个 
问题 。 假 设 你 现在 有 一 个 数据 库 ， 含 有 1 万 亿 条 记录 ， 每 条 记录 有 1000 
个 布尔 字段 (也 就 是 说 ， 每 个 字段 回答 一 个 是 或 否 的 问题 ) 。 这 个 数 
据 库 真 的 好 大 。 你 认为 有 多 少 种 可 能 的 事件 ? 往 下 读 之 前 好 好 猜 一 
猜 。 每 个 问题 可 能 的 答案 有 两 个 ， 两 个 问题 就 是 2 乘 以 2 (是 一 是 、 是 
可 题 由 十 庆生 2DE2 
如 果 是 1000 个 问题 ， 就 是 2 的 1000 次 方 (21009) 。 你 的 数据 库 中 1 万 亿 
条 记录 ， 可 能 性 就 是 分 子 是 1、 分 母 是 无 限 大 的 数 乘 以 1%， 然 后 再 乘 
以 21000,， “分 子 是 1、 分 母 是 无 限 大 的 数 " 指 的 是 “小 数 点 前 是 0， 小 数 点 
后 是 286 个 0， 后 面 跟着 1 的 小 数 ”。 结 果 就 是 : 无 论 有 多 少数 据 一 多 
少 兆 、 多 少 千 兆 、 多 少 千 兆 兆 、 多 少 泽 或 多 少 芜 字 节 ， 你 基本 上 什么 
也 看 不 到 。 你 要 决定 的 新 事件 已 经 存在 于 数据 库 中 ， 而 数据 库 非 常 
大 ， 这 件 事 发 生 的 概率 低 到 可 以 忽略 ， 所 以 如 果 不 进行 一 般 化 ， 对 你 
就 不 会 有 任何 帮助 。 


如 有 果 这 些 昕 起 来 有 点 抽象 ， 那 么 假设 你 是 一 个 邮件 服务 提供 丙 ， 
要 将 每 封 收 到 的 邮件 进行 分 类 ， 分 为 垃圾 邮件 或 非 垃圾 邮件 。 你 也 许 
有 一 个 包含 1 万 亿 封 过 去 邮件 的 数据 库 ， 而 且 每 封 邮件 都 已 经 被 分 为 垃 
圾 邮件 或 非 垃 圾 邮件 ， 但 那样 做 并 不 会 让 你 省 事 ， 因 为 每 封 靳 邮件 和 
之 前 邮件 一 模 一 样 的 概率 几乎 是 0。 你 没有 选择 ， 只 能 以 大 概 的 概率 来 
区 分 志 圾 邮件 和 非 垃圾 邮件 ， 而 根据 休 庶 的 观点 ， 这 根本 做 不 到 。 


“天 下 没有 人 免费 的 午餐 ”定理 


休 谨 提出 爆炸 性 问题 之 后 的 250 年 ， 大 卫 : 沃 尔 珀 特 (David 
Wolpert) 赋予 了 这 个 问题 优雅 的 数学 形式 。 沃 尔 珀 特 原来 是 一 名 物理 
学 家 ， 后 来 成 为 机 器 学 习 者 。 他 的 研究 结果 被 人 们 称 为 “天 下 没有 免费 
的 午餐 ”定理 ， 规 定 “ 怎 样 才 算是 好 的 学 习 算 法 ”。 这 个 规定 要 求 很 低 : 
没有 哪个 学 习 算 法 可 以 比 得 上 随意 猜测 。 好 吧 ， 那 我 们 惑 不 用 找 终极 
算法 ， 可 以 回 家 了 : 终极 算法 只 是 用 抛 人 硬币 来 做 决定 的 算法 。 说 真 
的 ， 如 果 没 有 哪个 学 习 算 法 可 以 比 抛 硬币 更 管用 ， 那 会 怎样 ? 而 且 如 
果真 的 是 那样 ， 为 什么 这 个 世界 一 一 从 垃圾 邮件 过 滤 随时 都 在 进 
行 ) 到 自动 芍 驶 汽车 一 一 到 人 处 都 是 非常 成 功 的 学 习 算 法 呢 ? 


“天 下 没有 人 免费 的 午餐 ”这 个 定理 和 由 斯 卡尔 赌注 失败 的 原因 非常 
相似 。 帕 斯 卡尔 的 《思想 录 》 于 1669 年 出 版 ， 他 在 书 中 提 到 我 们 应 该 
相信 和 基督教 中 的 神 ， 因 为 如 果 神 存在 ， 他 束 会 给 我 们 永生 ， 而 如 琳 他 
不 存在 ， 我 们 的 损失 也 很 小 。 这 在 当时 是 非常 复杂 的 论点 ， 但 正如 狄 
德 罗 指出 的 那样 ， 仇 玛 目 也 可 以 同样 的 理由 让 人 们 来 相信 和 真主 安 拉 的 
存在 。 如 果 你 选 错 了 要 信和 的 神 ， 代 价 束 是 永世 在 地 狱 。 总 而 言 之 ,在 
考虑 各 种 各 样 可 能 相信 的 神 时 ， 选 择 特定 的 神 来 信仰 ， 还 不 如 选择 其 
他 的 神 。 因 为 ， 有 说 “这 样 做 ”的 神 ， 也 会 有 说 “不 ， 那 样 做 ?的 神 。 你 
也 许 应 该 把 神 筷 了 ， 好 好 主 受 没有 宗教 限制 的 生活 。 


用 “学 习 算 法 ”来 代 巷 “ 神 *"， 用 “准确 的 预测 ”来 代 蕉 “永生 ”"， 你 束 遵 
守 “ 天 下 没有 免费 的 午餐 ”这 个 定理 了 。 选 择 你 最 喜欢 的 学 习 算 法 (在 
本 书 中 你 会 看 到 很 多 算法 ) 。 如 果 存 在 学 习 算 法 比 随机 猜测 好 用 的 领 
域 ， 我 〈 一 个 喜欢 唱 反 调 的 人 ) 会 构建 一 个 学 习 算法 没有 随机 猜测 好 
用 的 领域 。 我 要 做 的 吏 是 把 所 有 “未 知 ?例子 的 标签 翻 过 来 。 因 为 “经 过 
观察 ”的 标签 表明 ， 你 的 学 习 算 法 绝 无 可 能 区 分 世界 和 反 物 质 世界 。 在 
这 两 个 世界 中 的 平均 表现 ， 学 习 算 法 和 随机 猜测 一 样 好 用 。 因 此 ， 在 
所 有 可 能 的 世界 中 ， 把 每 个 世界 与 其 反 物 质 世 界 配 对 ， 你 的 学 习 算 法 
的 作用 就 和 抛 硬币 的 作用 一 样 。 


虽然 如 此 ， 别 马上 惑 对 机 天 学 习 或 终极 算法 失望 。 我 们 不 关心 所 
有 可 能 存在 的 世界 ， 而 只 关心 我 们 生存 的 这 个 世界 。 如 有 果 我 们 对 这 个 
世界 有 所 了 解 ， 然 后 把 了 解 的 知识 输入 我 们 的 学 习 算法 ， 那 么 现在 和 
随机 猜 测 相 比 ， 学 习 算 法 束 可 以 发 挥 优势 了 。 休 误 可 能 会 回应 说 ， 知 
识 本 吴 必 须 由 归纳 得 来 ， 因 此 知识 也 是 有 问题 的 。 没 错 ， 虽 然 知 识 是 
通过 进化 编 入 我 们 的 大 脑 的 ， 但 我 们 不 得 不 冒 这 个 险 。 我 们 也 可 以 这 
样 问 ， 有 没有 小 部 分 姓 良 置疑、 非常 基础 的 宝贵 知识 ， 让 我 们 可 以 在 
其 基础 上 进行 所 有 归纳 《有 点 像 笛 卡 儿 的 “我 思 故 我 在 "， 虽 然 很 难 明 
白 ， 如 何 将 这 句 话 输入 学 习 算 法 中 ) 。 我 觉得 回答 是 肯定 的 ， 在 第 九 
章 ， 我 们 束 会 知道 那些 宝贵 的 知识 是 什么 。 


同时 , “天 下 没有 人 免费 的 午餐 ”这 个 实际 的 结论 表明 ， 不 靠 知 识 进 
行 学 习 ， 这 样 的 事 不 存在 。 只 有 数字 也 不 够 。 从 零 开 始 只 会 让 你 一 无 
所 获 。 机 融 学 习 束 像 知 识 和 ， 我 们 可 以 用 它 来 从 数据 中 提取 大 量 的 知 
识 ， 但 首先 我 们 得 先 对 稍 进行 预 设 。 


数学 家 认为 机 器 学 习 这 个 问题 是 一 个 不 适 定 问题 (ill-posed 
problem) : 这 个 问题 没有 唯一 解 。 下 面 是 一 个 简单 的 不 适 定 问题 ， 哪 
两 个 数 相 加 的 得 数 是 1000? 假设 这 两 个 数 都 是 正 数 ， 管 案 束 有 500 
种 ......1 和 999，2 和 998 等 等 。 解 决 不 适 定 问题 的 唯一 办 法 就 是 引入 附 
加 假设 。 如 采 我 告诉 你 ， 第 二 个 数 是 第 一 个 数 的 三 倍 ， 那 么 管 案 就 是 
250 和 750。 


汤姆 . 米 切 尔 (Tom Mitchell) 是 典型 的 符号 学 者 ， 称 机 器 学 习 体 
现 “ 无 偏见 学 习 的 无 用 性 *。 在 日 常生 活 中 ,“ 偏 见 ” 是 一 个 贬义 词 : 预 
设 观 念 不 太 好 。 但 在 机 器 学 习 中 ， 预 设 观念 是 必 不 可 少 的 ;没有 这 些 
观念 ， 你 束 无 法 进行 学 习 。 实 际 上 ， 预 设 观念 对 人 类 认 知 来 说 ， 也 是 
必 不 可 少 的 ， 这 些 观念 是 “直线 布 入 人 脑 的 。 对 于 它们 ， 我 们 也 和 觉得 
征 理 所 当然 的 。 超 出 那些 观念 的 偏见 才 值得 质疑 。 


亚 里 士 多 德 曾经 说 过 ， 在 知识 领域 ， 没 有 什么 东西 不 是 首先 凭借 
感觉 来 形成 的 。 莱 布 尼 沪 又 加 了 一 句 ,“ 除 了 知识 本 身 ”。 人 类 的 大 脑 
不 是 一 张 日 纸 ， 因 为 它 不 是 一 块 石 板 。 石 板 是 被 动 的 ， 你 可 以 在 上 面 
写 东 西 ， 但 大 脑 可 以 主动 处 理 它 接收 到 的 东西 。 记 忆 束 是 大 脑 用 来 写 
东西 的 石板 ， 而 且 记 忆 不 古 一 开始 束 古 空 日 的 。 男 一 方面 ， 计 算 机 在 
你 给 筷 编 程 之 前 ， 吏 是 一 张 日 纸 ; 在 用 计算 机 做 事 之 前 ， 这 个 积极 的 
过 程 需 写 入 记忆 。 我 们 的 目标 是 找到 最 简单 的 、 我 们 能 编写 的 程序 ， 
这 样 写 好 的 程序 就 可 以 无 限制 地 通过 阅读 数据 来 目 行 编程 ， 直 到 该 程 
序 掌握 所 有 能 掌握 的 知识 。 


机 器 学 习 不 可 避免 地 含有 投机 的 因素 。 在 《和 警 探 哈里 》 (第 一 
集 ) 中 ， 克 林 特 : 伊 斯 特 伍德 追逐 一 名 银行 抢 动 犯 ， 同时 不 断 向 他 开 
枪 。 最 后 ， 抢 支 犯 匡 在 一 把 装 有 子弹 的 枪 旁边 ， 不 确定 要 不 要 把 它 拿 
起 来 。 哈 里 开 了 6 枪 还 是 只 开 了 5 枪 ? 哈里 同情 地 说 (可 以 这 么 
说 ) : “你 得 问 自 己 一 个 问题 : “我 足够 走运 吗 ? “你 真 的 走运 吗 ， 小 
子 ? ”这 也 是 机 璐 学 习 算法 每 天 运作 时 必须 问 目 己 的 问题 : “今天 我 幸 
运 吗 ?” 束 像 进化 的 过 程 一 样 ， 机 絮 学 习 不 是 时 时 刻 刻 都 知道 目 己 古 否 
可 以 准确 无 误 地 运行 。 实 际 上 ， 误 差 是 第 有 的 事 ， 并 不 意外 。 但 没 关 
系 ， 因 为 我 们 放弃 误差 的 部 分 ， 主 要 靠 没 有 误差 的 部 分 ， 而 计算 结 
才 征 最 重要 的 。 我 们 一 旦 擎 握 新 的 知识 ， 基 于 前 面 的 步 又， 融 可 以 得 
出 更 多 的 知识 。 唯 一 的 问题 束 是 ， 从 哪里 开始 。 


对 知识 泵 进行 预 设 


在 《 目 然 暂 学 的 数学 原理 》 一 书 及 三 大 运动 定律 中 ， 牛 顿 曾 述 了 
推理 的 四 条 法 则 。 虽 然 这 些 法 则 没有 那些 物理 定律 那么 著名 ， 但 可 以 
说 很 重要 。 其 中 第 三 条 是 关键 法 则 ， 我 们 可 以 这 样 表述 : 


我 们 见 过 的 所 有 真实 的 东西 ， 在 宇宙 中 也 是 真实 的 。 


叮 以 奢 不 奔 张 地 说 ， 这 人 句 听 起 来 无 伤 大 雅 的 话 就 古 牛 顿 章 命 以 及 
现代 科学 的 核心 。 开 普 勒 定律 适用 于 6 个 实体 ， 那 个 年 代 太 阳 系 中 已 知 
的 6 颗 行 星 。 牛 顿 定律 适用 于 宇宙 中 的 每 一 个 微粒 。 这 两 个 定律 之 间 的 
共性 如 此 之 大 ， 让 人 感到 号 惊 ， 而 这 也 十 牛顿 法 则 的 直接 结 采 。 这 个 
法 则 本 映 束 是 拥有 非 几 动力 的 知识 录 。 没 有 这 个 法 则 ， 也 就 没有 什么 
目 然 法 则 ， 有 的 也 只 是 永远 无 法 完整 的 、 小 规律 的 集合 体 。 


牛顿 法 则 是 机 器 学 习 的 第 一 个 不 成 文 规划。 我 们 归纳 目 己 能 力 范 
围 内 、 应 用 最 广泛 的 规则 ， 只 有 在 数据 的 迫使 下 ， 才 缩小 规则 的 应 用 
范围 。 乍 一 看 ， 这 看 起 来 可 能 过 于 目 信 甚至 近乎 蕊 雇 ， 但 这 种 做 法 已 
经 为 科学 服务 了 300 余 年 。 当然 也 可 以 想象 出 一 个 变化 无 音 的 宇宙 ， 在 
那里 牛顿 法 则 不 起 作用 ， 但 那 并 不 是 我 们 的 宇宙 。 


然而 ， 牛 顿 法 则 仅仅 是 第 一 步 。 还 得 弄 明 日 我 们 见 到 的 哪些 是 真 
实 的 一 一 如 何 从 原始 数据 中 找 出 规律 。 标 准 的 解决 方法 束 是 假设 我 们 
知道 真理 的 形式 ， 而 算法 的 任务 就 古 把 这 个 形式 具体 化 。 例 如 ， 在 之 
前 提 到 的 约会 问题 中 ， 你 可 以 假设 你 朋友 的 回复 由 单个 因素 来 决定 。 
在 这 种 情况 下 ， 算 法 就 只 包括 看 看 每 个 已 知 的 因素 (时 间 、 约 会 方 
式 、 天 气 、 晚 间 电 视 闻 目 ) ， 确 定 该 因素 是 否 每 次 都 能 准确 预测 她 的 
回答 。 可 问题 束 在 于 ， 每 个 因素 都 无 法 预测 她 的 回答 ! 你 打 财 了 ， 然 
后 输 了 “。 所 以 你 把 假设 放宽 了 一 点 。 如 采 你 朋友 的 回答 是 由 两 个 因 和 又 
一 起 决定 的 呢 ? 总 共 四 个 因素 ， 每 个 因素 有 两 种 可 能 的 值 ， 那 么 总 共 
有 24 种 可 能 (总 共有 6 对 因素 组 合 ， 即 12 乘 以 因素 的 两 种 可 能 ) 。 数 字 
太 多 ， 我 们 遇 到 尴 碎 ， 两 个 因素 的 四 种 组 合 准 确 预 测 了 结 采 ! 接 下 来 
后 么 办 ? 如 采 你 觉得 运气 还 行 ， 可 以 选 其 中 的 一 种 ， 然 后 祈祷 最 好 的 
结果 。 但 更 明 乔 的 选择 是 采取 民主 的 做 法 : 对 每 个 选项 进行 选择 ， 然 
后 狗 最 后 顾 的 预测 。 


如 果 所 有 两 个 因素 组 合 的 预测 都 失败 了 ， 你 可 以 尝试 任 意 个 数 因 
素 的 组 合 ， 机 器 学 习 者 和 心理 学 家 称 之 为 “ 合 取 概念 ” (conjunctive 


concept) 。 字 典 对 词 的 定义 就 属于 合 取 概 念 : 椅子 是 有 靠背 、 和 若干 条 
腿 的 坐 具 。 把 任意 一 个 摘 述 去 掉 ， 残 不 再 是 椅子 。 托 尔 斯 泰 在 写 《 安 
娜 `. 卡 列 尼 娜 》 的 开篇 时 ， 出 现在 他 脑海 里 的 瓯 是 合 取 概 念 : “所 有 泣 
福 的 家 庭 都 是 相似 的 ， 每 个 不 科 的 家 庭 各 有 各 的 不 季 。” 对 于 个 人 来 
说 ， 也 是 这 样 的 。 为 了 感到 笠 福 ， 你 需要 健康 、 爱 、 朋 友 、 钱 、 你 喜 
欢 的 工作 等 。 把 这 些 东 西 的 任意 一 个 拿 走 ， 痛 将 也 会 随 之 而 来 。 


在 机 融 学 习 中 ， 概 念 性 的 例子 成 为 正面 例 和 于， 而 与 概念 例子 相反 
的 则 是 负面 例子 。 如 琳 你 在 笑 试 通过 图 片 来 认 出 猫 ， 那 么 猫 的 图 片 谍 
古 正 面 例子 ， 而 狗 的 图 片 则 是 负面 例子 。 如 采 你 对 世界 文学 中 描述 的 
家 寿 进 行 汇总 ， 并 编 成 数据 库 ， 那 么 卡 列 尼 娜 一 家 束 古 辛 福 家 性 的 人 负 
面 例子 ， 而 且 正面 例子 骞 容 无 几 。 


首先 做 有 条 件 的 假设 ， 如 果 这 样 无 法 解释 数据 ， 再 放松 假设 的 条 
件 ， 这 束 是 典型 的 机 万 学 习 。 这 个 过 程 通常 由 算法 目 行 进行 ， 不 需要 
你 的 帮助 。 首 先 ， 算 法 会 尝试 所 有 单一 因素 ， 然 后 壬 试 所 有 两 个 因素 
的 组 合 ， 之 后 就 是 所 有 三 个 因素 的 组 合 等 。 但 现在 我 们 直到 一 个 问 
题 ， 合 取 概 念 太 多 ， 没 有 足够 的 时 间 对 其 逐个 笠 试 。 


约会 的 例子 有 点 欺骗 性 ， 因 为 它 太 小 (4 个 变量 ，4 个 例子 。 但 
假设 你 提供 在 线 约会 服务 ， 你 就 需要 知道 要 对 哪些 人 进行 配对 。 如 采 
你 的 每 个 会 员 都 填写 了 一 份 问 卷 ， 问 卷 包含 50 个 “十 或 否 ” 的 问题 ， 这 
样 孢 有 100 种 特点 ， 这 100 种 特点 简 兰 了 每 对 可 能 配对 成 功 的 情侣 的 特 
上 护 ， 每 对 情侣 中 的 一 方 都 有 50 个 特点 。 这 些 情 倡 出 去 约会 之 后 ， 会 汇 
报 结 采 ， 在 此 基础 上 ， 你 能 找到 “ 佳 侦 ” 这 个 定义 的 合 取 概念 吗 ? 总 共 
有 3100 种 可 能 的 定义 (每 个 问题 有 三 种 选择 ， 分 别 为 “是 ”、“ 否 *”、“ 与 
该 品质 无 关 ”) 。 即 使 由 世界 上 最 快速 的 计算 机 来 做 这 项 工作 ， 这 些 情 
侣 也 会 老 得 去 世 了 (你 的 公司 也 破产 了 ) 。 等 你 计算 出 来 ， 除 非 你 走 
运 ， 可 以 找 出 很 短 的 一 条 关于 “ 住 偶 ”的 定义 。 规 则 太 多 ， 而 时 间 太 
少 ， 我 们 得 做 点 更 精明 的 事 。 


这 里 有 一 种 方法 : 暂且 假设 每 个 配对 都 合适 ， 然 后 排除 所 有 不 合 
有 某 品质 的 搭配 ， 对 每 种 品质 重复 同样 的 做 法 ， 然 后 选择 那个 排除 了 
最 多 不 当 搭 配 和 最 少 适当 搭配 的 选项 。 现 在 你 的 定义 看 起 来 束 像 “只 
他 开朗 ， 这 对 才 合 适 ”。 现 在 反 过 来 试 着 把 其 他 品质 加 进去 ， 然 后 选择 
那个 排除 了 剩 下 最 多 的 不 当 搭配 和 剩 下 最 少 的 适当 搭配 的 选项 。 现 在 
的 定义 可 能 是 “只 有 他 和 她 都 开朗 ， 这 对 才 合 适 *”。 然后 试 着 往 那 两 个 
特点 里 加 入 第 三 个 品质 ， 以 此 类 推 。 一 旦 排除 了 所 有 不 合适 的 搭配 ， 
你 就 成 功 了 : 号 有 了 这 个 概念 的 定义 ， 这 个 概念 排除 了 所 有 的 正面 例 
子 和 所 有 的 负面 例子 。 例 如 ,“ 每 对 中 的 两 个 人 都 开 衣 ， 这 对 才 合 适 ， 
他 爱 狗 ， 而 她 不 爱 猫 *”。 现在 你 可 以 丢掉 所 有 数据 ， 然 后 只 把 这 个 定义 
留 下 ， 因 为 这 个 定义 概括 了 所 有 和 你 的 目标 相关 的 东西 。 这 个 算法 保 
证 能 在 合理 的 时 间 内 完成 运算 ， 而 这 也 是 我 们 在 本 书 中 见 过 的 第 一 个 
真实 的 学 习 算 法 。 


如 何 征服 世界 


虽然 合 取 概念 的 用 途 有 很 多 ， 但 并 不 能 让 你 走 很 远 。 正 如 和 鲁 德 亚 
德 : 吉 玉林 说 的 那样 ， 问 题 在 于 “ 编 部 落 歌谣 的 方法 有 很 多 种 ， 而 每 种 
方法 都 是 正确 的 ”。 真 正 的 概念 是 分 离 的 。 椅 子 可 能 有 四 条 腿 或 三 条 
腿 ， 而 有 些 则 一 条 也 没有 。 你 可 以 以 无 数 种 方法 来 局 一 盘 棋 。 包 含 “ 伟 
哥 ” 这 个 词 的 邮件 有 可 能 是 垃圾 邮件 ， 但 包含 “免费 "一 词 的 邮件 也 有 可 
能 是 垃圾 邮件 。 此 外 ， 所 有 规则 都 会 有 例外 。 所 有 的 乌 都 会 飞 ， 除 了 
企 斤 、 能 乌 、 食 火 鸡 或 者 几 维 乌 (或 断 了 站 膀 的 鸟 ， 或 被 锁 在 笼子 里 
的 鸟 ) 


我 们 要 做 的 就 是 学 习 经 过 一 系列 规则 定义 的 概念 ， 而 不 仅仅 古 单 
个 规则 ， 例 如 : 


如 果 你 喜欢 《星球 大 战 》 第 四 至 六 部 ， 那 么 你 会 喜欢 《 阿 凡 
人 

如 采 你 喜欢 《星际 迷航 : 下 一 代 》 以 及 《泰坦 尼 死 号 》， 那 么 
你 会 喜欢 《 阿 凡 达 》。 

如 采 你 参加 塞 拉 俱乐部 ， 并 阅读 科幻 书籍 ， 那 么 你 会 喜欢 《 阿 
PA 


或 者 : 


如 果 你 的 信用 卡 昨 天 在 中 国 、 加 拿 大 以 及 尼日利亚 被 刷 ， 那 么 
它 被 次 了 。 

如 采 茶 工作 日 晚上 11 点 ， 你 的 信用 卡 被 刷 ， 那 么 它 被 资 了 。 

如 果 你 的 信用 卡 被 用 来 购买 一 美元 的 汽油 ， 那 么 它 被 盗 了 。 


如 果 你 对 最 后 一 条 规则 有 疑问 ， 解 释 如 下 过 去 信用 卡 窃贼 通 第 
会 用 偷 到 的 卡 购买 一 美元 的 汽油 ， 来 看 看 在 数据 挖 据 器 识破 其 阴谋 
前 ， 信 用 卡 是 否 完好 。 


我 们 可 以 像 学 习 这 条 规则 那样 来 同时 学 习 多 套 规 则 ， 利 用 我 们 之 
前 见 过 的 算法 来 学 习 合 取 概 念 。 我 们 学 习 每 个 规则 之 后 ， 会 排除 该 规 
则 包含 的 正面 例子 ， 因 此 下 一 个 规则 会 尽 可 能 多 地 包含 镜 下 的 正面 例 
子 ， 以 此 类 推 ， 直 到 所 有 的 例子 都 被 包含 在 内 。 这 是 一 个 “分 而 治 
之 ”的 例子 ， 也 是 科学 家 的 战术 手册 中 最 古老 的 策略 。 为 了 找到 单个 规 
则 ， 我 们 也 可 以 对 算法 进行 改 民 ， 方 法 束 古 剑 留 某 数 n 的 假设 ,不 止 一 
个 数 ， 然 后 在 每 个 步骤 中 将 这 些 数 以 所 有 可 能 的 方法 延伸 开 来 ， 最 后 
保留 n 的 最 佳 结 


通过 该 方法 发 现 规则 的 创意 来 自理 夏 德 : 米 哈 尔 斯 基 (Ryszard 
Michalski) ， 他 是 波兰 的 一 位 计算 机 科学 家 。 米 哈 尔 斯 基 的 故乡 一 一 
卡尔 鲁 效 之 前 曾 属于 波兰 、 俄 罗斯 、 德 国 以 及 马克 兰 ， 这 让 米 哈 尔 斯 
基 比 多 数 人 更 能 理解 合 取 概念 。1970 年 移民 美国 之 后 ， 他 和 汤姆 : 米 切 
尔 、 祥 米 ' 卡 博 内 尔 一 起 创立 了 机 坷 学 习 的 符号 学 派 。 他 个 性 傲慢 ， 如 
果 你 在 一 场 机 器 学 习 会 议 中 做 报告 ,那么 很 有 可 能 他 会 举 手 指 出 你 只 
征 重 新 发 现 了 他 之 前 的 旧 观 点 。 


零售 商 喜 欢 一 父 套 的 规则 ， 因 为 他 们 要 决定 该 图 什么 货 。 通 常 ， 
他 们 会 用 比 “ 分 而 治之 ”更 为 彻底 的 方法 ， 也 就 是 寻找 所 有 能 够 准确 预 
测 每 个 购买 项 的 规则 。 沃 尔 玛 在 该 领域 属 先 驱 ， 他 们 早期 的 发 现 之 一 
谍 是 ， 如 末 你 买 了 纸 泵 片 ， 那 么 很 有 可 能 会 关 啤酒。 为 什么 ? 对 此 进 


行 解释 的 说 法 之 一 就 是 ， 妈 妈 让 爸爸 去 超市 买 纸 尿 片 ， 出 于 情感 补 
偿 ， 和 爸爸 天 了 一 箱 啤 酒 。 知 道 这 一 点 ， 超 市 现在 会 把 啤酒 放 在 纸 尿 片 


旁边 ， 这 样 啤酒 束 会 卖 得 更 好 。 不 找 规律 ， 这 样 的 事 束 不 会 在 沃尔玛 
发 生 。* 啤 酒 和 纸 尿 上 ”的 规则 已 经 在 数据 挖掘 领域 取得 传奇 式 的 地 位 

(虽然 会 有 人 说 ， 所 谓 的 传奇 和 城市 多 样 化 有 关 ) 。 不 管 怎样 ， 这 和 
米 哈 尔 斯 基 想 象 的 数字 电路 设计 问题 还 差 得 很 还 。20 世 纪 60 年 代 ， 他 
开始 考虑 规则 归纳 问题 。 如 果 你 发 明了 新 的 学 习 算 法 ， 你 甚至 无 法 想 
象 这 个 算法 能 应 用 的 所 有 地 方 。 


我 第 一 次 直接 体验 规则 学 习 ， 征 在 申请 信用 卡 的 时 候 。 那 时 我 刚 
来 到 美国 ， 开 始 接受 研究生 教育 ， 银 行 给 我 寄 了 一 封 信 ， 说 “很 遗憾， 
您 居住 在 该 地 址 的 时 间 还 不 足够 长 ， 所 以 无 历史 信用 记录 ， 你 的 申请 
被 拒绝 了 ”。 束 在 那 时 ， 我 知道 在 机 亏 学 习 领 域 有 待 研究 的 东西 还 很 


多 。 


在 无 知 与 幻觉 之 间 


规则 集 在 很 大 程度 上 比 合 取 概 念 要 有 力 得 多 。 实 际 上 ， 规 则 的 力 
量 如 此 之 大 ， 大 到 你 可 以 用 规则 来 代表 任何 概念 ， 要 找到 原因 则 很 
难 。 如 果 你 给 我 菜 个 概念 的 完整 例子 ， 我 只 能 将 每 个 例子 变 成 一 个 规 
则 。 这 个 规则 规定 了 每 个 例子 的 所 有 属性 ， 而 这 些 规则 的 集合 殉 是 该 
概念 的 定义 。 回 到 之 前 关于 约会 的 例子 ， 其 中 的 一 个 规则 是 : 现在 是 
周末 晚上 ， 天 气 暖和 ， 没 有 好 看 的 电视 节目 ， 你 提议 去 泡 吧 ， 她 会 
说 “ 没 问 题 ">。 表 3-1 只 包含 了 儿 个 例子 ,但 其 实 它 有 16 种 (2x2x2x2) 
可 能 ， 每 个 可 能 都 会 有 “ 约 ” 或 者 “不 约 ” 的 结 末 ， 将 每 个 正面 例子 以 这 
样 的 方法 变 成 规则 ， 我 们 惑 成 功 了 。 


规则 集 的 力量 是 一 把 双 刃 剑 。 从 正面 看 ， 你 知道 目 己 总 能 找到 和 
数据 完美 匹配 的 规则 。 但 你 还 没 来 得 及 开始 觉得 走运 ， 束 意识 到 目 己 
很 有 可 能 会 找到 一 个 毫 无 意义 的 规则 。 记 住 “ 天 下 没有 免费 的 午餐 ”: 
没有 知识 ， 你 就 无 法 进行 学 习 。 假 设 某 概念 能 通过 规则 集 来 定义 ， 相 
当 于 什么 也 没有 假设 。 


无 用 规则 集 的 一 个 例子 就 是 ， 只 包含 了 你 看 到 的 正面 例子 ， 除 此 
之 外 ， 没 有 其 他 的 例子 。 这 个 规则 集 看 起 来 100% 准 确 ， 但 那 只 是 假 
象 : 它 会 预测 每 个 新 例子 都 古人 负面 例子 ， 然 后 把 每 个 正面 例 了 于 弄 错 。 
如 有 果 正 面 例子 总 体 上 比 人 负面 例子 多 ， 这 种 做 法 的 效 末 会 比 抛 人 硬币 更 精 
粽 。 想 象 一 下 ， 邮 件 过 滤 右 仅 因为 某 封 邮件 和 之 前 垃圾 邮件 一 模 一 样 
忠 将 其 过 滤 ， 这 样 会 有 什么 后 果 ? 对 分 类 好 的 数据 进行 学 习 很 容易 ， 
这 样 的 数据 看 起 来 也 很 棒 ， 但 还 不 如 没有 世 圾 邮件 过 滤 右 。 很 遗憾 ， 
我 们 “分 而 治之 ”的 算法 有 可 能 束 像 那样 对 规则 集 进行 集 单 的 学 习 。 


在 《 博 闻 强 识 的 语 内 斯 》 的 故事 中 ， 聚 尔 丈 路易 斯 - 博 尔 医 斯 讲述 
了 和 一 位 拥有 完美 记忆 力 的 少年 相遇 的 故事 。 拥 有 完美 记忆 力 看 起 来 
非常 幸运 ， 但 其 实 这 是 一 个 可 怕 的 诅咒 。 富 内 斯 能 记 住 过 去 任意 时 刻 
天 空中 云 打 的 形状 ， 但 他 没有 办 法 理解 ， 下 午 15:14 看 到 的 狗 的 侧面 和 
下 午 15:15 看 到 的 狗 的 正面 ， 痢 是 同 一 条 狗 。 每 次 他 在 镜子 中 看 到 目 己 


的 脸 ， 都 会 感到 惊讶 不 已 。 富 内 斯 无 法 进行 概括 : 对 他 来 说 ， 两 个 事 
物 ， 只 有 每 个 细节 看 起 来 都 一 致 ， 才 能 说 它们 是 一 样 的 。 目 由 的 规则 
算法 和 富 内 斯 一 样 ， 发 挥 不 了 作用 。 学 习 束 意味 着 将 细 市 遣 起， 只 记 
住 重要 部 分 。 计 算 机 束 是 最 大 的 日 痢 专 家 : 它们 可 以 台 无 于 错 地 将 所 
有 东西 记 住 ， 但 那 不 是 我 们 想 让 它们 做 的 。 


问题 不 限于 记忆 大 量 例子 。 每 当 算法 在 数据 中 找到 现实 世界 中 不 
存在 的 模型 时 ， 我 们 说 它 与 数据 过 于 拟 合 。 过 拟 合 问题 是 机 器 学 习 中 
的 中 心 问 题 。 在 所 有 主题 中 ， 关 于 过 拟 合 问题 的 论文 最 多 。 每 个 强大 
的 学 习 算法 ， 无 论 是 符号 学 算法 、 联 结 学 算法 ， 或 者 其 他 别 的 学 习 算 
法 ， 都 不 得 不 担忧 幻觉 模式 这 个 问题 。 避免 幻觉 模式 唯一 安全 的 方 
法 ， 驶 是 广 格 限制 算法 学 习 的 内 容 ， 例 如 要 求学 习 内 容 是 一 个 稍 短 的 
合 取 概念 。 很 遗憾 ， 这 种 做 法 束 像 把 孩子 和 洗澡 水 一 起 倒 挥 一 样 ， 会 
让 学 习 算 法 无 法 看 到 多 数 真实 的 模型 ， 这 些 模 型 在 数据 中 是 可 见 的 。 
因此 ， 好 的 学 习 算 法 永远 在 无 知 与 幻觉 的 夹缝 中 行走 。 


人 类 对 过 拟 合 也 没有 免疫 。 你 长 至 可 以 说 ， 过 拟 合 是 我 们 的 万 恶 
之 源 。 想 想 一 个 日 人 小 女孩 ， 在 商场 看 到 拉美 裔 婴儿 时 脱口 而 出 “看 ， 
妈妈 ， 那 是 小 女 佣 ”( 真 实例 子 ) 。 小 女孩 并 非 生 来 束 是 偏执 狂 。 那 是 
因为 在 她 短暂 的 人 生 阅 历 里 ， 她 对 见 过 的 仅仅 几 个 拉美 裔 女 佣 进行 了 
获 统 的 概括 。 这 个 世界 有 许多 从 事 其 他 职业 的 拉美 裔 ， 但 她 还 没有 见 
过 他 们 。 我 们 的 信仰 建立 在 自己 的 经 历 之 上 ， 这 会 让 我 们 对 世界 的 理 
解 不 完整 ， 而 且 也 容易 过 早 得 出 错误 的 结论 。 即 便 你 很 聪明 ， 学 识 渊 
博 ， 也 无 法 免 受过 拟 合 的 影响 。 亚 里 士 多 德 说 要 使 一 个 物体 不 断 运 
动 ， 需 要 对 其 施加 一 个 力 ， 束 犯 了 过 拟 合 的 错误 。 伽 利 略 的 天 才 之 处 
在 于 ， 无 须 到 外 太空 亲眼 见证 ， 他 和 赁 直觉 天 知道 ， 不 受 外 力 影 响 的 物 
体会 一 直 保 持 运 动 。 


但 学 习 算法 特别 容易 过 拟 合 ， 因 为 它们 拥有 从 数据 中 发 现 模 型 、 
近乎 无 限制 的 能 力 。 人 类 发 现 一 个 模型 所 用 的 时 间 ， 计 算 机 可 以 找到 


数 百 万 个 。 在 机 器 学 习 中 ， 计 算 机 最 大 的 优势 (处理 大 量 数据 以 及 不 
知 疲倦 不 断 重复 同样 步 又 的 能 力 ) 也 是 它 的 劣质 所 在 。 如 果 你 做 的 研 
完 够 多 ， 然 后 能 有 所 发 现 ， 也 很 不 错 。《 圣 经 密码 》 (1998 年 的 畅销 
书 ) 声称 如 果 你 以 固定 间距 跳 过 某 些 字母 ， 然 后 把 点 中 的 字母 拼 起 
来 ， 束 会 发 现 《 和 圣经》 对 未 来 的 预言 。 遗 憾 的 是 ， 保 证 你 能 从 任何 足 
够 长 的 文本 中 找到 “预言 "， 有 很 多 方法 。 人 怀疑 论 者 会 说 ， 他 们 在 《日 
钙 记 》 和 最 高 法 院 的 裁决 中 找到 了 预言 ， 除 此 之 外 ， 还 提 到 罗斯 威 
尔 ， 以 及 《圣经 :创世纪 》 中 的 不 明 飞 行 物 。 约 翰 : 冯 :' 庄 依 曼 (计算 机 
科学 的 黄 基 之 父 之 一 ) 曾 说 过 一 句 众 所 周知 的 话 : “用 4 个 参数 ， 我 能 
拟 合 一 头 大 象 ， 用 5 个 参数 ， 我 可 以 让 它 的 曙 子 扭 动 起 来 ”当今 我 们 
通 利 会 学 习 拥 有 数 百 万 参数 的 模型 ， 这 些 参数 足以 让 世界 上 的 每 头 大 
象 都 扭 动 愉 子 。 甚 至 曾 有 人 说 过 ， 数 据 控 握 意味 着 “ 折 麻 数据 ， 直 到 数 
据 受 协 ”。 


过 拟 合 问题 因为 哮 杂 的 声音 被 三重 全 大 。 在 机 融 学 习 中 ， 这 些 品 
声 仅 仅 意 味 着 数据 中 的 误差 ， 或 者 你 无 法 预测 的 偶然 事件 。 比 如 你 的 
朋友 在 电视 不 好 看 的 时 候 ， 真 的 想 去 泡 吧 ， 但 你 记 错 第 三 次 约会 的 情 
况 ， 并 写 着 那天 晚上 的 电视 好 看 。 如 采 你 现在 努力 找 出 一 套 规 则 ， 为 
那天 晚上 破 个 例 ， 这 样 你 可 能 最 终 会 得 到 一 个 糟糕 的 答案 ， 比 忽略 那 
个 晚上 得 出 的 结果 还 糟 。 或 者 比如 你 的 朋友 前 一 晚 刚 出 去 喝 醉 了 ， 所 
以 今 晚 想 休 息 ， 但 如 果 是 平时 ， 她 会 答应 出 去 约会 。 除 非 你 知道 她 窒 
醇 了 ， 为 了 得 出 本 例子 的 正确 结果 而 掌握 一 套 规 则 ， 其 实 会 适 得 其 
反 : 你 最 好 将 第 三 次 约会 情况 “错误 分 类 ”， 以 得 出 否定 回答 。 这 种 情 
况 更 糟 : 误 关 或 偶然 事件 会 让 你 无 法 找 出 整套 规律 。 仔 细 看 ， 你 会 发 
现 第 二 次 约会 和 第 三 次 约会 其 实 难以 区 别 : 它们 都 有 相同 的 属性 。 如 
果 你 的 朋友 管 应 第 二 次 邀请 ， 而 拒绝 第 三 次 邀请 ， 那 么 就 没有 什么 规 
则 能 让 这 两 次 预测 都 准确 。 


当 你 有 过 多 假设 ， 而 没有 足够 的 数据 将 这 些 假设 区 分 开 来 时 ， 过 
拟 合 问题 整改 生 了 。 坏 消息 是 ， 即 便 对 最 位 单 的 合 取 概 念 算法 来 说 ， 


假设 的 数量 也 会 随 痢 属性 的 增多 而 皇 指 数 级 增长 。 指 数 级 增长 是 一 件 
念 饰 的 事 。 大 肠 杆菌 每 15 分 钟 束 能 大 致 分 多 成 两 个 细菌 ， 只 要 有 中 够 
的 宫 养 ， 它 可 以 在 大 约 一 天 时 间 内 ， 生 长 出 大 量 细菌 ， 和 地 球 一 样 
大 。 当 算法 需要 做 的 事情 和 输入 的 数据 一 样 呈 指 数 级 增长 时 ， 计 算 机 
科学 家 束 将 这 个 现象 称 为 组 合 爆 炸 ， 然 后 会 四 处 奔走 寻求 保护 。 在 机 
红学 习 中 ， 一 个 概念 可 能 实例 的 数量 ， 有 是 其 属性 数量 的 指数 函数 : 如 
果 属 性 是 布 尔 值 ， 每 种 新 的 属性 可 能 会 是 实例 数量 的 两 倍 ， 方 法 现 是 
引用 之 前 的 每 个 实例 ， 然 后 为 了 那个 新 属性 ， 对 该 实例 
以 “是 ”或 “ 非 ” 来 进行 扩展 。 反 过 来 ， 可 能 概念 的 数量 吓 可 能 实例 数量 
的 指数 函数 : 既然 每 个 概念 都 把 实例 分 成 正面 或 者 负面 ， 加 入 一 个 实 
例 ， 可 能 的 概念 网 会 翻 倍 。 因 此 ， 概 念 的 数量 束 是 属性 数量 的 指数 男 
数 的 一 个 指数 函数 ! 换 句 话说 ， 机 器 学 习 束 是 组 合 炮 炸 的 组 合 爆炸 。 
也 许 我 们 该 放弃 ， 不 要 把 时 间 痕 费 在 这 样 没 有 希望 的 问题 上 。 


幸运 的 是 ， 在 学 习 过 程 中 ， 会 发 生 一 些 事 ， 把 其 中 一 个 指数 消 
除 ， 只 剩 下 一 个 “普通 的 ”单一 指数 难 解 型 问题 。 假 设 你 有 一 个 袋子 ， 
装 满 概念 的 定义 ， 每 个 定义 写 在 一 张 约 上， 你 随机 取出 纸 片 ， 然 后 看 
看 这 个 概念 和 数据 的 匹配 程度 。 和 连续 抛 1000 次 硬币 都 是 正面 朝 上 的 
概率 相 比 ， 一 个 不 恰当 的 定义 更 没有 可 能 让 你 的 数据 中 所 有 1000 个 例 
子 都 准确 无 疙 。“ 一 把 椅 于 有 四 条 腿 ， 而 且 是 红色 的 ， 或 者 有 椅 面 但 没 
有 椅 腿 ?可 能 会 和 某 些 例子 匹配 ， 但 并 不 是 和 你 看 到 的 所 有 椅子 都 匹 
配 ， 也 可 能 会 和 其 他 一 些 事物 相 匹配 ， 但 并 不 是 和 所 有 其 他 事物 都 匹 
配 。 因 此 ， 如 果 一 个 随机 定义 准确 匹配 了 1000 个 例子 ， 那 么 这 个 概念 
不 太 有 可 能 是 错误 的 定义 ， 或 者 至 少 它 和 正确 的 定义 非 党 接近。 而 且 
如 打 一 个 定义 和 100 万 个 例子 相 匹配 ， 那 么 实际 上 它 就 是 正确 的 定义 。 
其 他 的 定义 怎么 能 使 那么 多 例子 准确 无 误 ? 

当然 ， 真 正 的 学 习 算法 不 会 只 是 从 袋子 里 随机 去 除 一 个 定义 。 这 
个 算法 会 笑 试 所 有 定义 ， 而 且 这 些 定义 也 不 是 随机 选择 的 。 算 法 尝试 
的 定义 越 多 ， 越 有 可 能 偶然 得 到 能 够 和 所 有 例子 匹配 的 定义 。 如 果 你 


每 组 抛 1000 次 硬币 ， 然 后 重复 100 万 组 ， 实 际 上 有 至少 会 有 一 组 出 现 1000 
次 硬币 都 是 正面 朝 上 的 情况 ， 而 100 万 也 仅仅 是 假设 的 一 个 小 数目 。 例 
如 ， 如 果 例 子 只 有 13 个 属性 ， 那 大 概 就 是 可 能 的 合 取 概 念 的 数目 〈 注 
意 你 不 需要 明确 地 演 试 一 个 义 一 个 概念 ， 如 果 你 找到 的 最 好 的 那个 概 
念 利用 了 合 取 概念 学 习 算 法 ， 并 且 和 所 有 的 例子 匹配 ， 效 果 也 是 一 样 
HN 


总 结 : 学 习 束 是 你 拥有 的 数据 的 数量 和 你 所 做 假设 数量 之 间 的 较 
量 。 更 多 的 数据 会 呈 指数 级 地 减少 能 够 成 立 的 假设 数量 ,但 如 有 果 一 开 
始 就 做 很 多 假设 ， 最 后 你 可 能 还 会 留 下 一 些 无 法 成 立 的 假设 。 一 般 来 
说 ， 如 果 学 习 算 法 只 做 了 一 个 指数 数量 的 假设 (例如 ， 所 有 可 能 的 合 
取 概 念 ) ， 那 么 该 数据 的 指数 报酬 会 将 其 取消 ， 你 毫 无 影响 ， 只 要 你 
有 许多 例子 ， 且 属性 不 太 多 。 另 外 ， 如 果 算 法 做 了 一 个 双 指 数 的 假设 
(例如 ， 所 有 可 能 的 规则 集 ) ， 那 么 数据 只 会 取消 其 中 的 一 个 指数 ， 
而 且 你 仍 会 处 于 奢 烦 之 中 。 你 甚至 可 以 提前 弄 明 日 自己 需要 多 少 例 
子 ， 这 是 为 了 你 证 算法 选择 的 假设 和 准确 的 那个 非常 接近 ， 只 要 它 对 
所 有 数据 都 拟 合 。 换 名 话说， 是 为 了 假设 能 够 尽 可 能 准确 。 哈 佛 大 学 
的 莱 斯 利 : 瓦 利安 特 获得 了 图 灵 奖 《计算 机 科学 领域 的 诺 贝 尔 奖 ) ， 因 
为 他 发 明了 这 种 分 析 方 法 ， 他 在 自己 的 书 中 将 这 种 方法 取 名 为 “可 能 近 
似 正 确 ”(probably approximately correct) ， 非 常 恰当 。 


你 能 信任 的 准确 度 


在 实践 中 ， 瓦 利安 特 式 的 分 析 方 法 往往 非常 被 动 ， 而 且 需要 的 数 
据 比 你 拥有 的 还 要 多 。 那 么 你 怎么 决定 ， 是 否 要 相信 和 学习 算法 告诉 你 
的 东西 呢 ? 这 个 很 位 单 : 在 利用 学 习 算法 过 去 看 不 到 的 数据 对 其 进行 
证 实 之 前 ， 你 不 要 相信 任何 东西 。 如 采 学 习 算 法 假设 的 模型 对 新 数据 
来 说 也 适用 ， 你 就 可 以 很 有 信心 地 说 那些 模型 是 正确 的 ， 否 则 你 知道 


学 习 算 法 过 拟 合 了 。 这 仅仅 是 应 用 于 机 器 学 习 中 的 科学 方法 :对 一 个 
新 理论 来 说 ， 这 不 足以 用 来 解释 过 去 的 证 据 ， 因 为 捏造 一 个 能 做 到 这 
些 的 理论 非常 容易 。 理 论 还 必须 做 出 新 的 预测 ， 而 且 只 有 这 些 预测 经 
过 实验 验证 后 ， 你 才 接 受 它们 (即使 那样 ， 也 只 是 暂时 的 ， 因 为 未 来 
的 证 据 会 对 其 进行 证 伪 ) 。 


爱 因 斯 坦 的 广义 相对 论 也 只 是 在 亚 巧 - 爱 丁 顿 对 其 证 实 之 后 才 厂 泛 
被 人 们 接受 。 爱 丁 顿 以 经 验 为 主 ， 证 实 广义 相对 论 的 预测 是 对 的 ， 预 
测 表 明太 阳 使 来 目 遥 远 星 球 的 光线 变 灾 了。 但 是 你 也 不 必 等 待 靳 数据 
的 到 来 ， 以 决定 能 否 信任 学 习 算 法 。 你 可 以 利用 目 己 拥有 的 数据 ， 将 
其 分 成 一 个 训练 集 和 一 个 测试 集 ， 然 后 前 者 交 给 学 习 算 法 ， 把 后 者 隐 
藏 起 来 不 让 学 习 算法 发 现 ， 用 来 验证 其 准确 度 。 留 存 数 据 的 准确 度 就 
苹 机 器 学 习 中 的 “黄金 标准 *”。 你 可 以 写 一 篇 关于 你 发 明 的 伟大 的 新 型 
学 习 算法 的 文章 ， 但 如 果 你 的 算法 的 留存 数据 不 如 之 前 的 算法 的 留存 
数据 准确 ， 那 么 这 篇 文章 也 没有 什么 出 版 价值 。 


此 前 不 可 见 数 据 的 准确 度 测 试 确实 是 一 个 相当 严格 的 考验 ， 实 际 
上 ， 科 学 的 很 多 方面 都 因此 没有 经 得 住 考 答 。 这 并 不 意味 着 科学 就 没 
有 用 了 ， 因 为 科学 不 仅仅 是 用 来 预测 的 ， 还 能 用 来 解释 和 理解 。 但 是 
最 后 ， 你 的 模型 如 果 无 法 对 新 的 数据 做 出 准确 预测 ， 殉 无 法 保证 目 己 
真 的 理解 或 者 解释 了 隐藏 在 背后 的 现象 。 对 于 机 旭 学 习 来 说 ， 对 不 可 
见 数 据 的 测试 是 必 不 可 少 的 ， 因 为 这 是 判断 学 习 算 法 是 否 过 拟 合 的 唯 
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即使 测试 集 准 确 度 也 会 出 问题 。 据 说 ， 在 早期 军事 应 用 中 ， 一 种 
人 简单 的 学 习 算 法 探测 到 坦克 的 训练 集 和 测试 集 的 准确 度 都 为 100%， 两 
个 集 都 由 100 张 图 片 组 成 。 惊 讶 ? 还 是 怀疑 ? 结 末 是 这 样 的 一 一 所 有 有 
坦克 的 图 片 都 比 没有 坦克 的 图 片 有 ， 所 以 学 习 算 法 整 部 挑 了 较 腕 的 图 
请。 目前 我 们 有 更 大 的 数据 集 ， 但 并 不 意味 数据 收集 的 质量 会 更 好 ， 
所 以 得 当心 。 在 机 器 学 习 从 新 生 领域 成 长 为 成 熟 领 域 的 过 程 中 ， 务 实 


的 经 验 评 价 会 起 到 重要 的 作用 。 追 溯 至 20 世 纪 80 年 代 ， 每 个 学 派 的 人 研 
守 人 员 很 多 时 候 都 相信 目 己 华而不实 的 理论 ， 假 滨 目 己 的 研究 范式 从 
根本 上 说 是 更 好 的 ， 所 以 与 其 他 学 派 的 交流 也 很 少 。 雷 - 称 尼 、 表 德 沙 
弗 里 死 等 符号 学 者 开始 系统 地 对 不 同 算法 的 相同 数据 集 进 行 比较 ， 令 
人 惊讶 的 是 ， 真 正 的 赢家 还 没有 出 现 。 如 今 竞争 在 继续 ， 但 “ 异 花 授 
粉 * 的 情况 也 很 多 。 利 用 加 州 大 学 欧文 分 校 的 机 姨 学 习 小 组 维护 的 普通 
实验 框 架 和 大 型 数据 集 存储 库 ， 我 们 会 取得 重大 进步 。 而 且 正 如 我 们 
看 到 的 ， 创 造 通 用 学 习 算 法 的 最 大 希望 在 于 综合 不 同人 研究 范式 的 观 
点 。 


当然 ， 知 道 你 何 时 过 拟 合 这 一 点 还 不 足够 ,我 们 需要 第 一 时 间 避 
人 免 过 拟 合 。 这 就 意味 着 不 再 对 数据 进行 完全 拟 合 ， 即 便 我 们 能 做 到 。 
有 一 个 方法 就 是 运用 统计 显著 性 检验 来 确保 我 们 看 到 的 模型 真实 可 
靠 。 例 如 ， 拥 有 300 个 正面 例子 、100 个 反面 例子 的 规则 ， 和 拥有 3 个 正 
面 例子 、1 个 负面 例子 的 规则 一 样 ， 它 们 训练 数据 的 准确 率 都 达到 
75%， 但 第 一 个 规则 几乎 可 以 肯定 比 抛 硬币 好 用 ， 而 第 二 个 则 不 然 ， 
因为 抛 4 次 硬币 ， 可 以 很 容易 得 出 3 次 正面 朝 上 。 在 构建 规则 时 ， 如 果 
某 一 时 刻 无 法 找到 能 提高 该 规则 准确 度 的 条 件 ， 那 么 我 们 只 能 停 下 ， 
即便 它 还 包括 一 些 负面 例 于 。 这 样 做 会 降低 规则 的 训练 集 准 确 度 ， 也 
可 能 让 它 变 成 一 个 更 能 准确 概括 的 规则 ， 这 是 我 们 关心 的 。 


虽然 如 此 ， 我 们 还 没有 大 功 告 成 。 如 有 果 我 莹 试 了 一 条 规则 ，400 个 
例子 中 的 准确 率 古 75%， 可 能 会 相信 这 个 规则 。 但 如 采 我 尝试 了 100 万 
条 规则 ， 其 中 最 佳 的 规则 中 ，400 个 例子 中 的 准确 率 是 75%， 可 能 整 不 
会 相信 这 个 规则 ， 因 为 这 很 有 可 能 是 偶然 发 生 的 。 这 也 十 你 在 挑 共同 
基金 时 过 到 的 问题 。Clairvoyant 基 金 连 续 10 年 获得 高 于 市 场 平均 水 平 
的 收益 。 哇 ! 这 个 基金 的 经 理 一 定 是 个 天 才 ， 不 是 吗 ?” 如 果 你 有 1000 
种 基金 可 以 选择 ， 很 有 可 能 你 选 的 那个 会 比 Clairvoyant 基 金 的 收益 还 
要 高 ， 即 使 那些 基金 都 由 玩 飞 镖 的 猴子 秘密 经 营 。 科 学 文献 也 被 这 个 
问题 困扰 看 。 显 壮 性 检验 是 决定 一 项 研究 结果 是 否 值得 出 版 的 “黄金 标 


准 ”， 但 如 采 几 个 组 找 一 个 结果 ， 而 只 有 一 个 组 找到 了 ， 那 么 很 有 可 能 
它 并 没有 找到 。 虽 然 你 阅读 他 们 看 起 来 很 可 靠 的 文章 ， 但 是 绝 不 会 狂 
到 那样 的 结 采 。 有 一 个 解决 方法 : 出 版 有 肯定 结 采 的 文章 ， 同 时 发 表 
有 人 否定 结果 的 文章 ， 那 样 你 就 会 知道 所 有 竹 试 失败 的 例子 ， 但 这 种 做 
法 没有 流行 起 来 。 在 机 絮 学 习 中 ， 我 们 可 以 把 自己 壬 试 了 多 少 条 规则 
记录 下 来 ， 然 后 相应 地 调整 显 闭 性 检验 ， 不 过 那样 做 ， 这 些 检验 可 能 
会 把 可 靠 的 规则 连同 不 可 靠 的 一 起 丢弃 。 更 好 的 方法 就 是 认识 到 有 些 
错误 的 假设 会 不 可 避免 成 立 ， 但 要 控制 它们 的 数量 ， 方 法 驶 是 否定 低 
显著 性 的 假设 ， 然 后 对 剩 下 的 假设 做 进一步 的 数据 检测 。 


男 外 一 个 流行 的 方法 束 古 选择 更 加 简单 的 假设 。“ 分 而 治之 ”算法 
会 含 著 地 选择 更 简单 的 规则 ， 因 为 它 在 一 出 现 只 有 正面 例子 的 情况 
时 ， 束 会 集 止 添加 条 件 ， 在 一 出 现 包含 所 有 正面 例子 的 情况 时 ， 束 会 
停止 添加 规则 。 但 为 了 和 过 拟 合 做 斗争 ， 我 们 要 对 更 简单 的 规则 有 更 
强 的 偶 好 ， 这 样 束 能 在 所 有 负面 例子 被 包含 之 前 ， 吏 停止 添加 条 件 。 
例如 ， 我 们 可 以 稍微 降低 规则 的 准确 度 ， 来 缩短 规则 的 长 度 ， 然 后 把 
这 种 做 法 当 作 一 个 测评 指标 。 


对 较 简 单 假设 的 偏好 就 是 众人 皆 知 的 奥 卡 姆 剃刀 原理 〈Ocam's 
razor) ， 但 在 机 器 学 习 背 景 下 ， 这 有 点 误导 性 。“ 如 无 必要 ， 斩 增 实 
体 ”， 因 为 剃刀 各 第 会 被 殖 换 ， 仅 意味 着 挑 选 能 够 拟 合 数据 的 最 简 原 
理 。 奥 卡 姆 可 能 对 这 样 的 想法 感到 迷惑 ， 也 驶 是 我 们 会 偏 回 那些 不 那 
么 能 完整 解释 论据 的 理论 ， 因 为 这 个 理论 的 概括 性 更 好 。 人 简单 的 理论 
更 受 欢 迎 ， 因 为 它们 对 于 我 们 来 说 ， 伦 费 的 认 知 成 本 更 低 ， 对 于 我 们 
的 算法 来 说 ， 花 费 的 计算 成 本 更 低 ， 这 不 是 因为 我 们 想 让 这 些 理论 更 
准确 。 相 反 ， 即 使 是 我 们 最 复杂 的 模型 ， 也 往往 是 在 事实 过 分 和 消化 之 
后 得 到 的 。 甚 至 在 那些 能 够 完美 拟 合 数据 的 理论 中 ， 我 们 由 “天 下 没有 
免费 的 午餐 ”这 个 定理 ， 知 道 没 有 什么 能 够 保证 最 简单 的 理论 最 擅长 概 
括 ， 而 实际 上 ， 有 些 最 佳 的 学 习 算 法 ， 比 如 推进 和 支持 同 量 机 ， 能 


解 那 些 看 起 来 过 于 复杂 的 模型 在 第 七 章 和 第 九 章 中 我 们 会 了 解 它 们 
为 什么 有 这 样 的 功能 ) 。 


如 有 果 你 的 学 习 算法 检测 集 准确 度 不 尽 如 人 意 ， 你 束 得 诊断 问题 在 
哪里 。 是 因为 无 知 ， 还 是 因为 幻想 ? 在 机 器 学 习 中 ， 这 些 的 专业 叫 法 
为 “偏差 > 和 ?方差 ”。 某 座 钟 如 果 总 是 慢 一 个 小 时 ， 那 么 它 的 偏差 会 很 
高 ， 但 方差 会 很 低 。 但 如 果 这 座 钟 走 得 时 快 时 慢 ， 最 后 平均 下 来 准点 
了 ， 那 么 它 的 方 老 会 很 高 ， 但 侦 差 会 很 低 。 假 设 你 和 一 些 朋 友 在 酒吧 
喝酒 、 玩 飞镖 。 他 们 不 知道 你 已 经 练 了 多 年 飞镖 ， 所 以 非常 熟练 。 你 
的 所 有 飞镖 都 打 到 靶 / 心 ， 你 的 偏 莽 和 方差 都 很 低 ， 效 采 图 3-1c 所 示 。 
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你 的 朋友 本 也 玩 得 很 好 ， 但 他 喝 得 有 点 多 。 他 的 镖 映 完了 ， 他 大 
声 说 ， 平 均 下 来 是 他 射 中 了 靶 心 《也 许 他 本 该 是 一 位 统计 学 家 ) 。 这 
是 低 偏差 、 高 方差 的 例子 ， 如 图 3-1d 所 示 。 本 的 女 朋 友 艾 希 莉 射 得 很 
稳 ， 但 射 的 时 候 过 于 偏向 右上 角 。 她 的 方差 低 ， 但 偏差 高 ( 见 图 3- 
1a) 。 科 迪 ， 从 外 地 来 ， 从 来 没有 玩 过 飞镖 ， 射 的 镖 都 位 于 中 心 上 
方 ， 伍 离 中 心 ， 他 的 偏差 和 方差 都 高 ( 见 图 3-1b) 。 


你 可 以 售 算 一 种 学 习 算 法 的 偏 蕾 和 方 靶 方法 就 古 在 掌握 训练 集 
的 随机 变量 之 后 ， 对 算法 的 预测 进行 对 比 。 如 果 算 法 一 直 出 错 ， 那 么 
问题 就 出 在 偏差 上 ， 而 你 需要 一 个 更 为 灵活 的 学 习 算 法 (或 者 只 和 原 
来 的 不 一 样 即 可 ) 。 如 果 出 现 的 错误 无 模式 可 循 ， 问 题 束 出 在 方差 
上 ， 而 你 要 么 笑 试 一 种 不 那么 灵活 的 学 习 算 法 ， 要 么 获取 更 多 的 数 
据 。 大 多 数学 习 算 法 都 有 一 个 “把 手 ”， 通 过 旋转 “把 手 ”， 你 可 以 调节 
这 些 算法 的 灵活 度 ， 例 如 ， 显 闭 性 检验 的 界限 值 ， 或 者 对 于 模型 规模 
的 惩 昼 方式 。 扭 动 * 把 手 ” 是 你 芝 试 的 第 一 个 方法 。 


归纳 是 逆向 的 演绎 


更 深层 的 问题 是 ， 多 数学 习 算 法 开始 时 掌握 的 东西 很 少 ， 即 使 转 
再 多 “把 手 ”， 也 没 法 让 这 些 算法 到 达 终 点 。 没 有 成 年 人 大 脑 中 所 储存 
知识 的 指导 ， 这 些 算法 很 容易 误 入 卜 途 。 虽 然 多 数学 习 算 法 会 误 入 歧 
途 ， 但 只 是 假设 你 明白 真理 的 形式 (例如 ， 那 是 一 小 组 规则 ) ， 还 不 
足以 达到 令 人 震惊 的 程度 。 严 格 的 经 验 主 义 者 会 说 ， 开 始 时 知之 其 
少 ， 这 是 所 有 新 生 儿 都 有 的 特点 ， 因 为 这 个 特点 深 深 存在 于 其 大 脑 结 
构 中 ， 而 孩子 确实 会 比 成 人 更 容易 犯 过 拟 合 的 错误 ， 但 我 们 想 学 得 比 
孩子 快 (18 年 是 很 长 的 一 段 时 间 ， 而 且 还 没 把 大 学 教育 时 间 计 算 在 
内 ) 。 主 算法 应 该 能 以 大 量 的 知识 作为 启动 (无论 这 些 知识 由 人 类 来 
提供 ， 还 是 之 前 已 经 掌握 ) ， 然 后 在 对 数据 做 出 新 概括 时 ， 用 到 这 些 


知识 。 这 了 吏 是 科学 家 做 的 工作 ， 这 相当 于 从 零 开 始 做 。"“ 分 而 治之 ” 原 
则 的 归纳 算法 做 不 到 这 一 点 ， 但 还 有 别 的 掌握 规则 的 方法 能 做 到 。 


问题 的 天 键 在 于 认识 到 ， 归 纳 仅仅 是 敢 疝 演绎 ， 就 和 减法 古 加 法 
的 逆 运 算 ， 或 者 积分 是 微分 的 逆 运 滤 一 样 。 这 个 观点 由 威廉 姆 :斯坦 利 . 
杰 文 斯 于 19 世 纪 末 首次 提出 。 史 蒂 夫 : 马 格 尔 顿 和 雷 : 邦 坦 (一 个 英国 一 
澳大利亚 研究 组 ) 在 此 基础 上 于 1988 年 设计 出 第 一 个 实用 算法 。 在 数 
学 这 个 学 科 中 ， 通 过 已 知 条 件 进行 运算 ,得 出 其 逆向 结果 的 方法 已 经 
有 一 段 传奇 的 历史 。 把 这 种 方法 运用 到 加 法 当中 束 有 了 人 整数， 因为 如 
果 没 有 负数 ， 加 法 就 不 可 逆 了 (3-4=-1) 。 同 样 ， 将 其 用 到 乘法 中 就 
有 了 有 理 数 ， 而 将 其 运用 到 平方 运算 中 束 有 了 复数 。 让 我 们 来 看 看 能 
人 否 将 这 种 方法 运用 到 演绎 中 。 演 绎 推理 的 一 个 典型 例子 就 古 : 


苏 格 拉 底 是 人 类 。 
所 有 人 类 都 会 死 。 


第 一 个 句子 是 关于 共 格 拉 撒 的 事实 ， 第 二 个 是 关于 人 类 的 一 般 规 
则 。 接 下 来 的 推理 是 怎样 的 ? 苏 格 拉克 当然 也 会 死 ， 这 是 将 一 般 规 则 
用 到 苏 格 拉 帮 身上 得 出 的 。 相 反 ， 我 们 在 归纳 推理 中 会 以 最 初 事实 和 
衍生 事实 作为 开始 ， 然 后 找 一 个 规则 ， 让 我 们 由 前 者 推出 后 者 : 


区 格拉 展 是 人 类 。 


所 以 苏 格 拉 底 也 会 死 。 


有 这 样 一 个 规则 : 如 果 苏 格拉 确定 人 类 ， 那 么 他 束 会 死 。 这 人 句 话 
完成 了 推理 ， 但 并 不 是 很 有 用 ， 因 为 这 征 专 门 针对 区 格拉 抵 的 规则 。 


但 现在 我 们 应 用 牛顿 定律 ， 然 后 将 该 定律 推广 到 所 有 实体 当中 : 如 果 
某 实体 是 人 类 ， 那 么 它 束 会 死 。 或 者 更 简洁 些 ， 所 有 人 类 都 会 死 。 当 
然 ， 仅 通过 苏 格 拉 发 束 归纳 出 该 规则 过 于 草率 ， 但 对 于 其 他 人 类 ， 我 
们 知道 相似 的 事实 : 


柏拉图 是 人 类 ， 他 会 死 。 
亚 里 士 多 德 是 人 类 ， 他 会 死 。 
以 此 类 推 .…… 


对 于 每 个 事实 ， 我 们 构建 这 样 的 规则 ， 让 我 们 由 第 一 个 事实 推出 
第 二 个 事实 ， 然 后 通过 牛顿 定律 将 其 推广 。 当 同一 条 通用 规则 一 次 又 
一 次 被 归纳 出 来 时 ， 我 们 有 信心 说 那 条 规则 说 的 是 真 的 。 


到 目前 为 止 ， 我 们 还 没有 做 任何 “分 而 治之 ”算法 无 法 做 到 的 事 。 
可 是 ， 如 果 我 们 不 知道 苏 格 拉 压 、 柏 拉 图 、 亚 里 士 多 德 是 人 类 ， 只 知 
道 他 们 古 哲 学 家 ， 那 会 怎样 ? 我 们 仍 会 得 出 结论 ， 说 他 们 也 会 死 ， 因 
为 之 前 我 们 就 归纳 过 或 者 别 告诉 过 我 们 ， 所 有 人 都 会 死 。 这 也 是 一 
种 有 效 推广 《至少 在 我 们 解决 人 工 智能 问题 ， 而 机 器 人 开始 从 事 哲 学 
研究 之 前 是 ) ， 而 且 这 也 在 我 们 的 推理 中 “填补 了 漏洞 ”: 


苏 格 拉 底 是 哲学 
所 有 哲学 家 都 是 人 。 
所 有 人 都 会 死 。 

所 以 苏 格 拉 底 会 死 。 


我 们 也 可 以 单纯 从 其 他 规则 中 归纳 另 一 些 规则 。 如 果 我 们 知道 所 
有 哲学 家 都 是 人 ， 而 且 会 死 ， 我 们 就 可 以 归纳 出 所 有 人 都 会 死 我们 
不 会 归纳 出 所 有 会 死 的 都 是 人 类 ， 因 为 我 们 知道 其 他 会 死 的 动物 ， 例 


如 猫 和 狗 。 男 一 方面 ， 科 学 家 、 忆 术 家 等 也 是 人 类 ， 也 会 死 ， 因 此 这 
条 规则 得 到 加 强 ) 。 通 常 ， 我 们 以 越 多 的 规则 和 事实 作为 开头 ， 也 就 
有 越 多 的 机 会 运用 “ 逆 回 演绎 ?归纳 新 的 规则 。 我 们 归纳 的 规则 越 多 ， 
我 们 能 归纳 的 规则 也 束 越 多 。 这 是 知识 创造 的 民 性 循环 ， 只 受过 拟 合 
风险 和 计算 成 本 的 限制 。 可 是 在 这 里 ， 我 们 也 有 初始 知识 的 协助 : 如 
果 我 们 有 很 多 小 的 而 不 是 大 的 漏洞 要 修补 ， 归 纳 的 步 又 殉 不 会 有 那么 
大 的 风险 ， 所 以 过 拟 合 的 可 能 性 也 会 降低 (例如 ， 给 定 相 同 数量 的 例 
子 ,，“ 所 有 哲学 家 都 是 人 类 ”这 个 归纳 ， 就 比 * 所 有 人 都 会 死 * 这 个 归纳 
风险 要 小 ) 。 


逆 运 算 往 往 比 较 困 难 ， 因 为 敢 运 算 的 结 来 不 止 一 个 。 例 如 ， 一 个 
整数 有 两 个 平方 根 : 一 个 正 数 ， 一 个 负数 [22= (-2) “=4| 。 最 为 人 
所 知 的 是 ， 对 一 个 函数 的 导数 积分 ， 只 会 将 函数 恢复 为 一 个 首 数 。 男 
数 的 导数 告诉 我 们 该 琅 数 在 每 个 点 上 下 浮动 的 幅度 。 把 所 有 幅度 值 加 
起 来 会 重新 得 到 函数 ， 除 非 我 们 不 知道 它 从 哪里 开始 变化 。 我 们 可 以 
在 不 改变 导数 的 情况 下 ， 上 下 “滑动 ”积分 过 的 函数 。 为 了 位 便 ， 我 们 
可 以 假设 附加 常量 为 0， 来 “取缔 ”函数 。 逆 向 演绎 存在 类 似 的 问题 ， 而 
牛顿 定律 就 古 一 个 解决 方法 。 例 如 ， 我 们 由 “所 有 希腊 的 哲学 家 都 是 人 
类 ”和 “所 有 希腊 哲学 家 都 会 死 ” 可 以 归纳 出 “所 有 人 类 都 会 死 "， 或 只 能 
归纳 出 “所 有 和 斋 腊 人 都 会 死 ”。 可 征 为 什么 仅 满 足 于 最 保守 的 归纳 ? 其 
实 我 们 可 以 认为 所 有 人 都 会 死 ， 直 到 遇 到 例外 ( 据 雷 . 库 兹 韦 尔 说 ， 这 
个 意外 很 快 就 会 出 现 ) 。 


同时 ， 逆 向 滥 绎 的 男 外 一 个 重要 的 应 用 ， 就 十 预测 新 研制 的 药物 
古 否 有 不 民 的 副作用 。 动 物 测试 及 临床 试验 的 失败 ， 成 为 研制 新 药物 
需要 花费 多 年 、 数 十 亿美 元 的 主要 原因 。 通 过 归纳 已 知 有 毒 分 子 的 结 
构 ， 我 们 可 以 得 出 规律 ， 迅 速 清除 明显 的 有 毒化 合 物 ， 大 大 提高 剩余 
化 合 物 的 临床 试验 成 功率 。 


掌握 治愈 癌症 的 方法 


更 广泛 地 说 ， 逆 向 演 RR 

也 是 治 鳃 癌症 要 迈 出 的 第 一 步 。 根 据 中 心 法 则 的 观点 ， oe 
In 
成 。 一 个 细胞 区 ® 像 一 台 微 型 计算 机 ， 而 DNA 束 是 计算 机 运行 的 程序 : 
改变 DNA， 色 肤 细胞 就 会 变 成 神经 元 细胞 ， 或 者 小 鼠 细 胞 会 变 成 人 类 
细胞 。 在 计算 机 的 程序 中 ， 所 有 的 故障 都 是 由 程序 员 引 起 的 。 但 在 细 
胞 中 ， 故 障 可 目 行 产生 ， 比 如 当 辐 射 或 者 细胞 复制 误 关 将 某 基 因 变 成 
另外 一 个 基因 时 ， 当 基因 偶然 被 复制 两 次 时 .…… 很 多 时 候 ， 变 异 会 导 
致 细胞 悄 无 声 妃 地 死去 ， 但 有 时 候 细 胞 开始 生长 ， 然 后 不 可 控制 地 分 
裂 ， 这 样 癌 细 胞 就 产生 了 。 


治愈 癌症 意味 着 在 不 破坏 完好 细胞 的 情况 下 ， 阻 止 受 损 细 胞 的 繁 
殖 。 ee 损 细 胞 的 区 别 在 哪里 ， 特 别 是 它们 染 
色 体 组 的 区 别 在 哪里 ， 因 为 其 他 所 有 的 一 切 都 依 此 进行 。 幸 运 的 是 ， 
基因 测序 变 得 越 来 越 普遍 、 越 来 越 实 囊 。 利 用 基因 测序 ， 我 们 可 以 预 
测 哪 种 药 对 哪 种 癌 基 因 起 作用 。 这 和 传统 的 化 学 疗法 不 一 样 ， 化 学 疗 
法 对 所 有 细胞 的 影响 都 一 样 。 掌 握 哪 种 药物 对 哪 种 变异 有 效 ， 这 需要 
关于 患者 的 数据 库 、 他 们 的 癌 基 因 、 服 用 过 的 药物 以 及 药 效 。 最 简单 
的 规则 对 基因 与 药物 之 间 一 对 一 的 对 应 关系 进行 编码 ， 例 如 ， 如 果 出 
现 BCR-ABL 基 因 ， 那 么 服用 格 列 卫 这 种 药物 (BCR-ABL 引 发 一 种 白 
血 病 ， 而 格 列 卫 在 10 个 患者 中 能 治愈 9 个 患者 ) 。 一 旦 癌 基 因 排 序 和 治 
疗 结果 核对 达到 标准 管理 ， 更 多 这 样 的 规则 会 被 发 现 。 


然而 ， 这 仅仅 是 一 个 开始 。 大 多 数 交 症 都 会 涉及 各 种 混合 的 变 
异 ， 或 者 只 有 靠 某 些 药物 才能 治愈， 而 这 些 药物 尚未 被 研发 出 来 。 下 
一 步 台 是 以 更 为 复杂 的 条 件 来 掌握 规则 ， 这 涉及 总 基因 组 、 叫 者 的 基 
因 组 、 病 史 、 药 物 的 已 知 副作用 等 。 但 最 终 我 们 需要 的 ， 就 是 完整 细 
胞 运转 的 模型 ， 这 让 我 们 在 计算 机 上 对 特殊 病人 变异 的 有 影响、 不 同 药 


物 组 合 的 效果 进行 模仿 ， 无 论 是 真实 存在 的 ， 还 征 猜 想 出 来 的 ， 都 进 
行 模 念 。 我 们 构建 此 类 模型 的 主要 信息 ， 主 要 源 于 DNA 测 序 仪 、 基 因 
表达 微 阵 列 以 及 生物 学 文献 。 将 这 些 结合 起 来 ， 人 们 融会 看 到 逆 同 演 
绎 的 作用 。 


亚当 (我 们 在 第 一 章 中 提 到 过 的 机 器 人 科学 家 ) 就 是 一 个 例子 。 
亚当 的 目标 是 弄 明 日 酵母 粉 如 何 起 作用 。 机 器 人 以 酵母 遗传 学 、 新 陈 
代谢 的 基本 知识 ， 以 及 一 批 酵母 细胞 的 基因 表达 数据 作为 开端 ， 运 用 
逆向 滥 绎 来 假设 哪 种 基因 会 通过 哪 种 蛋 日 质 来 表达 ， 然 后 设计 微 阵列 
实验 来 对 其 进行 检测 ， 接 着 修正 假设 ， 最 后 重复 以 上 步骤 。 是 否 每 个 
基因 都 会 表达 出 来 ， 这 取决 于 其 他 基因 ， 以 及 所 处 的 环境 条 件 ， 由 此 
产生 的 网 络 交 互 可 表达 为 一 个 规则 集 ， 例 如 : 


如 果 温 度 高 ， 那 么 基因 A 就 会 表达 出 来 。 
如 有 果 基 因 A 表 达 出 来 ， 而 基因 B 没 表达 出 来 ， 则 基因 C 表 达 出 
Rs 


如 果 基 因 C 表 达 出 来 ， 那 么 基因 DD 不 会 表达 出 来 。 


如 有 果 我 们 知道 的 是 第 一 条 和 第 三 条 规则 ， 不 知道 第 二 条 ， 但 我 们 
有 微 阵列 数据 ， 数 据 显 示 在 高 温 条 件 下 ， 基 因 B 和 基因 DD 无 法 表达 ， 那 
么 我 们 就 可 以 通过 送 向 演绎 来 归纳 出 第 二 条 规则 。 一 旦 我 们 有 了 这 条 
规则 ， 而 且 也 许 利用 微 阵列 实验 证 实 了 这 条 规则 ， 那 么 我 们 就 能 用 它 
作为 进一步 归纳 推理 的 基础 。 同 理 ， 我 们 也 可 以 将 化 学 反应 的 顺序 拼 
竣 起 来 ， 因 为 蛋 日 质 就 是 按照 这 些 顺 序 发 挥 作用 的 。 


即便 如 此 ， 仅 仅 知 道 哪些 基因 调节 哪些 基因 ， 以 及 蛋 日 质 如 何 组 
织 化 学 反应 中 的 细胞 网 络 还 不 够 。 我 们 还 需要 知道 ， 每 种 分 子 产 生 的 
量 有 多 少 。DNA 微 阵列 和 其 他 实验 能 够 提供 这 种 数量 方面 的 信息 ， 但 


送 丫 演绎， 以 其 “ 非 有 即 无 ”的 逻辑 特点 ， 并 不 是 很 擅长 处 理 这 方面 的 
事情 。 因 此 我 们 要 用 到 联结 学 派 的 方法 ， 这 会 在 下 一 革 谈 到 。 


20 问 游戏 


送 问 演绎 的 另外 一 个 局 限 性 就 在 于 ， 它 涉及 很 密集 的 计算 ， 因 此 
很 难 扩展 到 海量 数据 集中 。 因 为 这 些 原 因 ， 符 号 学 家 选择 的 算法 是 决 
策 树 归纳 。 决 策 树 可 以 当 作 此 类 问题 的 答案 : 如 采 有 多 个 概念 的 规则 
对 应 一 个 实例 ， 那 怎么 办 ? 那么 我 们 怎么 知道 实例 对 应 哪个 概念 呢 ? 
如 果 看 到 一 个 部 分 封闭 的 物体 ， 它 有 一 个 平面 、 四 条 腿 ， 那 么 我 们 怎 
么 知道 它 是 一 张 桌 了 于， 还 是 一 把 椅子 呢 ? 有 一 个 方法 ， 束 是 对 规则 进 
行 排序 ， 例 如 以 准确 率 递 减 的 顺序 来 排列 ， 然 后 选择 符合 描述 的 第 一 
条 规则 。 另 一 个 方法 ， 束 是 让 规则 目 己 选择 。 决 策 树 通 间 会 保证 ， 每 
个 实例 会 准确 对 应 一 条 规则 。 也 区 ® 古 说 ， 在 一 次 及 以 上 的 属性 测试 
中 ， 如 果 每 对 规则 存在 区 别 ， 这 样 的 规则 集 将 被 组 织 成 一 棵 决 岳 树 。 
例如 ， 看 看 以 下 这 些 规则 : 


如 果 你 支持 判 减 税收 ， 反 对 趾 胎 ， 那 么 你 属于 共和 营 。 
如 采 你 反对 削减 税收 ， 那 么 你 属于 民主 党 。 


如 宁 你 文 持 削 城 税收 ， 提 倡 量 胎 合 法 ， 反 对 枪械 管制 ， 那 么 你 
属于 独立 人 士 。 


如 宁 你 文 持 削减 税收 ， 提 倡 量 胎 合法 ， 文 持 枪 械 管 制 ， 那 么 你 
属于 民主 党。 


这 些 可 以 组 成 一 些 决 策 树 ， 如 图 3-2 所 示 。 


判 减 税收 


反对 喧 胎 


枪械 绾 制 


图 3-2 


决策 树 的 原理 就 像 玩 一 个 有 实例 的 20 问 游戏 。 从 “根部 ”开始 ， 
个 节操 部会 问 每 个 属性 的 值 ， 然 后 根据 答案 ， 我 们 党 着 这 个 或 男 外 一 
个 分 文 继续 下 去 。 当 有 到达“ 树叶 ”部 分 时 ， 我 们 读 取 预测 的 概念 。 从 “ 根 
部 ”到 “树叶 ”的 每 条 路 线 都 对 应 一 个 规则 。 这 让 人 想起 那些 烦人 的 电话 
语音 提示 沫 单 ， 如 条 你 拨打 客户 服务 电话 ， 殉 得 通过 这 些 菜 单 ， 这 些 
菜单 与 决 傈 树 相 似 并 非 偶然 一 一 电话 语音 提示 琳 单 就 是 一 棵 决 朱 树 。 


电话 线 男 一 头 的 计算 机 在 和 你 玩 20 问 游戏 ， 目 的 是 弄 明 白 你 想 要 做 什 
么 ， 每 个 选项 束 是 一 个 问题 。 


根据 以 上 决策 树 ， 你 要 么 是 共和 和 党 人 人， 要么 是 民主 党 人 人， 要么 是 
独立 人 十。 你 无 法 选择 其 中 的 两 种 或 三 种 ， 或 者 一 个 都 不 选 。 拥 有 这 
个 属性 的 概念 组 被 称 为 类 集 ， 而 预测 类 集 的 算法 称 为 分 类 器 。 单 个 概 
念 隐 含 两 类 定义 : 概念 本 身 及 其 反面 (例如 ， 垃 圾 邮件 和 非 垃 圾 邮 
件 ) 。 分 类 器 是 机 器 学 习 最 为 普遍 的 方式 。 


利用 “分 而 治之 ”算法 的 一 个 变 体 ， 我 们 吏 可 以 掌握 决策 树 了 。 首 
先 ， 我 们 选 一 个 属性 ， 在 决策 树 的 “根部 ”进行 测试 。 然 后 我 们 关注 每 
个 分 支 上 的 例子 ， 为 那些 例子 选择 下 一 个 测试 (例如 ， 我 们 看 看 支持 
痢 减 税收 的 人 是 否 反 对 春 胎 或 者 支持 嘲 胎 合法 ，。 我 们 在 归纳 推理 出 
的 每 个 新 条 点 上 重复 这 个 步 怠 ， 一 直到 分 广 上 的 所 有 例子 都 有 同一 个 
类 别 ， 此 时 我 们 束 可 以 用 该 类 别 来 命名 该 分 文 了 。 


有 一 个 突出 的 问题 ， 那 就 古 如 何 挑选 最 佳 属性 以 便 在 节点 处 进行 
测试 。 准 确 度 (准确 预测 例子 的 数量 ， 并 不 能 起 到 很 好 的 作用 ， 因 为 
我 们 不 是 在 竹 试 预测 菏 个 特殊 类 别 ， 而 是 在 答 试 慢 慢 分 离 每 个 类 别 ， 
直到 每 个 分 文 都 变 得 “纯粹 >?。 这 使 人 想起 信息 论 中 精 的 概念 。 一 组 对 
象 的 箭 ， 台 是 用 来 衡量 混乱 度 的 单位 。 如 采 150 人 的 组 里 面 有 50 个 共和 
党 人 、50 个 民主 党 人 、50 个 独立 人 士 ， 那 么 这 个 组 的 政治 炉 会 达到 最 
大 。 男 一 方面 ， 如 采 这 个 组 全 部 是 共和 党 人 ， 那 么 炉 就 变 成 零 (这 就 
征 党 派 联 合 的 目的 ) 。 所 以 为 了 学 习 一 棵 好 的 决策 树 的 优点 ， 我 们 在 
每 个 节点 选择 这 样 的 属性 : 在 其 所 有 分 文中 ,产生 的 精 在 乎 均值 上 属 
性 最 仿 ; :取决 于 每 个 四 文 上 有 多 少 例 于 > 


和 规则 学 习 一 样 ， 我 们 不 想 归 纳 出 一 棵 树 ， 可 以 准确 地 预测 所 有 
训练 例子 的 类 别 ， 因 为 这 样 的 树 很 有 可 能 会 过 拟 合 。 和 之 前 一 样 ， 为 
了 防止 这 样 的 事情 发 生 ， 我 们 可 以 利用 显著 性 检验 或 针对 树 的 大 小 设 
立 惩 加 制度 。 


如 泉 属 性 离散 ， 属 性 的 每 个 值 都 有 一 个 分 文 ， 这 没关系 ， 但 如 采 
征 数 值 属性 该 怎么 办 ? 如 有 果 连 续 变 量 的 每 个 值 都 有 一 个 分 文 ， 决 策 树 
将 变 得 无 限 宽 。 一 个 人 简单 的 方法 束 古 通过 入 来 计 择 几 个 临界 值 ， 然 后 
使 这 些 临 界 值 起 作用 。 例 如 ， 患 者 的 体温 是 高 于 还 十 低 于 100 华 氏 度 ? 
这 个 体温 数 和 其 他 症状 一 起 ， 也 许 古 所 有 医生 都 要 知道 的 ， 通 过 体温 
可 以 断定 患者 是 否 感 染 疾 病 。 


决策 树 可 应 用 在 许多 不 同 的 领域 。 在 机 器 学 习 领 域 ,决策 树 源 于 
心理 学 方面 的 知识 。 厄 尔 : 享 特 及 其 同事 于 20 世 纪 60 年 代 利 用 了 决策 
树 ， 目 的 是 为 了 模拟 人 类 如 何 掌握 新 的 概念 。 另 外 ， 享 特 其 中 的 一 个 
研究 生 过 斯 : 昆 兰 后 来 莹 试 把 决策 树 用 于 象棋 中 。 他 最 初 的 目的 是 为 了 
从 棋盘 占 位 预测 王 车 大 战 薪 士 的 后 采 。 据 调查 ， 决 策 树 已 经 由 一 开始 
这 些微 不 足 道 的 用 途 ， 发 展 成 为 机 融 学 习 算 法 中 应 用 最 为 广泛 的 方 
法 。 要 知道 原因 并 不 困难 : 决策 树 易 于 理解 ， 可 以 快速 掌握 ， 而 且 通 
常 无 须 太 多 调整 束 可 以 做 到 准确 无 误 。 昆 兰 是 符号 学 派 中 最 卓越 的 研 
完 者 。 作 为 一 个 沉稳 、 务 实 的 澳大利亚 人 ， 因 为 对 决策 树 年 复 一 年 不 
断 地 改进 ， 并 写 了 和 决策 树 有 天、 远 辑 清晰 的 论文 ， 使 决策 树 成 为 分 
类 活动 中 的 “黄金 标准 ”。 


无 论 你 想 预 测 什么 ， 人 人们 利用 决策 树 来 预测 的 可 能 性 会 很 大 。 微 
软 的 Kinect 利 用 决策 树 ， 通 过 其 深度 相机 的 输出 信息 ， 可 以 弄 明 日 你 
喘 体 的 各 个 部 位 在 哪里 ， 然 后 利用 这 些 部 位 的 动作 来 控制 Xbox 游戏 
机 。 在 2002 年 的 一 场 正 面 交 锋 中 ， 决 策 树 准确 预测 了 3/4 的 最 高 法 院 裁 
决 ， 而 一 个 专家 小 组 的 准确 率 却 不 到 60%。 数 千 个 决策 树 使 用 者 不 可 
能 会 出 错 ， 你 仔细 想 想 ， 然 后 画 一 棵 树 来 预测 朋友 的 答复 (如 有 果 你 想 
约 她 出 去 的 话 ) 。 如 图 3-3 所 示 。 


电视 节目 


图 3-3 


根据 这 标 树 的 结果 ， 今 晚 她 会 答应 你 出 去 约会 。 深 呼吸 ， 拿 起 手 
机 ， 拨 通 她 的 电话 吧 。 


符号 学 派 


从 号 学 派 的 核心 理念 束 古 ， 所 有 和 智力 相关 的 工作 都 可 以 归结 大 
对 符号 的 操纵 。 数 学 家 在 解 方 程 时 ， 会 移动 符号 ， 然 后 根据 预先 定 义 
的 规则 ， 用 其 他 符号 来 代替 这 些 符 号 。 逻 辑 学 家 进行 推论 时 也 十 同样 
的 道理 。 根 据 这 个 假设 ,智力 是 独立 于 基质 的 。 符 号 处 理 是 通过 写 在 


黑板 上 进行 的 ， 还 是 通过 打开 或 关闭 晶体 管 、 放 电 神 经 元 ， 或 者 玩 玩 
积木 就 能 完成 的 ， 这 些 都 不 重要 。 如 果 你 能 利用 万 能 图 灵机 的 力量 来 
进行 设置 ， 那 么 束 能 做 任何 事情 。 软 件 可 以 和 硬件 清晰 地 分 离 。 如 采 
你 关注 的 重点 是 想 弄 明白 机 器 是 怎样 学 习 的 ， 你 〈 谢 天 谢 地 ) 不 用 担 
心 后 者 无 法 在 亚马逊 的 云 服 务 上 购买 个 人 计算 机 或 者 目 行车 。 


符号 学 机 万 学 习 者 和 许多 其 他 计算 机 科学 家 、 心 理学 家 、 哲 学 家 
一 样 ， 都 相信 符号 操纵 的 力量 。 心 理学 家 大 卫 : 马 尔 称 ， 每 个 信息 处 理 
系统 应 该 经 过 二 个 不 同 水 平 的 研究 ， 该 系统 解决 所 解决 问题 的 基本 属 
性 ， 用 来 解决 问题 的 算法 和 表示 方法 ， 以 及 这 些 算法 和 表示 方法 如 何 
实现 。 例 如 ， 加 法 可 以 由 一 组 公理 来 定义 ， 和 加 法 如 何 进行 无 天 ; 数 
字 可 以 以 不 同方 式 进行 表达 (例如 ， 罗 马 数 字 和 阿拉 伯 数 字 ) ， 还 可 
以 用 不 同 算法 进行 相 加 ;， 而 这 些 运算 可 以 通过 算盘 、 侦 珍 计算 右 ， 或 
者 效率 更 低 的 方式 一 一 你 的 大 脑 来 进行 。 根 据 马 尔 的 水 乎 理论 ， 学 习 
征 我 们 能 够 研究 的 认 知 能 力 的 典型 例 于 ， 而 且 对 我 们 来 说 受 花 菲 浅 。 


符号 主义 机 器 学 习 是 人 工 智能 知识 工程 学 派 的 一 个 分 文 。20 世 纪 
70 年 代 ， 所 谓 的 基于 知识 的 系统 取得 结 越 成 绩 ， 而 到 了 80 年 代 ， 它 们 
迅速 传播 ， 后 来 却 消 失 了 。 它 们 消失 的 主要 原因 是 人 人 逃避 的 知识 习 
得 瓶颈 : 从 专家 号 上 提取 知识 ， 然 后 将 其 编码 成 为 规则 ， 这 样 做 难度 
太 大 、 太 费力 、 吻 出 故障 ， 会 引起 很 多 问题 。 让 计算 机 目 行 学 习 ， 比 
如 通过 查看 过 往 患 者 症状 及 其 相应 疗效 的 数据 库 ， 束 可 以 进行 疾病 诊 
断 ， 比 无 数 次 地 找 医 生 要 容易 很 多 。 突 然 之 间 ， 诸 如 理 夏 德 : 米 哈 尔 斯 
基 、 淘 姆 : 米 切 尔 、 罗 斯 : 昆 兰 之 类 的 先驱 人 信物， 他们 的 工作 有 了 新 的 联 
系 ， 而 这 个 领域 目 此 没有 停止 发 展 过 〈 另 外 一 个 重要 的 问题 就 是 基于 
知识 的 系统 在 处 理 不 确定 性 时 会 有 问题 ， 在 第 六 章 会 深入 探讨 这 个 问 
题 ) 。 


因为 其 起 源 和 指导 原则 ， 符 号 学 派 和 其 他 学 派 相 比 ， 和 人 工 智能 
的 其 他 方面 关系 更 为 密切 。 如 采 计 算 机 科学 是 一 块 大 陆 ， 符 号 主义 机 


器 学 习 和 知识 工程 学 会 有 很 长 的 交界 线 。 知 识 通过 两 个 方向 进行 交易 
_ 手动 输入 的 知识 ， 供 学 习 算法 使 用 ， 还 有 归纳 得 出 的 知识 ， 用 来 
加 入 知识 库 中 ， 但 最 终 理性 主义 者 和 经 验 主义 者 的 断层 线 会 刚好 落 在 
这 条 界线 上 ， 想 越过 这 条 界线 则 不 容易 。 

符号 主义 是 通 往 终极 算法 的 最 短路 程 。 它 不 要 求 我 们 弄 明白 进化 
论 和 大 脑 的 工作 原理 ， 而 且 也 避免 了 贝 叶 斯 主义 的 数学 复杂 性 。 规 则 
集合 决策 树 易 于 理解 ， 所 以 我 们 知道 学 习 算 法 要 做 什么 。 这 样 它 可 以 
轻易 算出 自己 做 对 或 做 错 什么 ， 找 出 故障 ， 得 出 准确 结 


尽管 决策 树 很 受 欢 迎 ， 但 和 刘 问 演绎 是 寻找 主 算法 更 好 的 出 发 点 。 


中 ， 而 且 我 们 知道 休 恋 问题 使 这 一 点 变 得 很 有 必要 。 另 外 ， 规 则 集 和 
决策 例 相 比 ， 表 达 多 数 概念 的 方式 要 侧 洁 很多。 把 一 栋 决 策 树 转 变 成 
一 个 规则 集 很 容易 : 每 条 从 “根部 ”到 “叶子 ”的 路 线 是 一 条 规则 ， 而 且 
路 线 不 会 朋 浇 。 男 外 ， 最 坏 的 情况 是 ， 把 一 个 规则 集 转化 成 一 棵 决策 
树 ， 需 要 把 每 条 规则 变 成 一 棵 迷你 决策 树 ， 然 后 用 规则 2 决策 树 的 副本 
来 代 礁 规则 1 决策 树 的 每 片 叶子 ， 用 规则 3 决策 树 的 副本 来 代 兰 规则 2 决 
策 树 每 个 副本 的 每 片 叶 子 ， 以 此 类 推 , 这样 会 引起 大 范围 朋 江 。 


敢 问 演绎 束 像 一 个 超级 科学 家 ， 系 统 查 看 论据 ， 思 考 可 行 的 归纳 
法 ， 整 理 最 有 利 的 证 据 ， 然 后 将 这 些 和 其 他 论据 一 起 ， 进 一 步 提出 假 
设 一 一 所 有 过 程 都 基于 计算 机 的 速度 。 逆 同 演绎 简洁 而 美观， 至 少 符 
合 符 号 学 者 的 品位 。 此 外 ， 逆 同 演绎 也 有 一 些 严 重 的 缺点 。 可 行 的 归 
纳 法 数量 广泛 ， 除 非 我 们 和 最 初 知 识 保持 亲密 关系 ， 人 否则 很 容易 在 衬 
间 中 迷失 。 闻 向 演 绎 容易 被 噪声 迷惑 ， 我 们 怎样 才能 知道 ， 哪 些 演绎 
步 又 被 漏 挥 了 ， 如 果 前 提 或 者 结论 本 吴 束 已 出 错 ? 最 严重 的 是 ， 真 正 
的 概念 很 少 能 通过 一 个 规则 集 来 定义 。 它 们 不 是 黑 ， 也 不 是 白 ， 比 如 
垃圾 邮件 和 非 垃圾 邮件 之 间 有 一 片 很 大 的 灰色 区 域 。 要 获取 真正 的 概 
念 ， 号 得 权衡 并 收集 有 弱点 的 论据 ， 直 到 出 现 清 晰 的 定义 。 疾 病 的 诊 


断 ， 涉 及 把 重点 放 在 一 些 钙 状 上 面 ， 然 后 放弃 那些 不 完整 的 论据 。 还 
没有 人 能 只 学 习 一 个 规则 组 ， 束 能 通过 观看 图 请 的 像素 来 认 出 一 只 
狂 ， 而 且 可 能 以 后 也 没 人 能 做 到 。 


联结 学 派对 符号 学 派 尤 其 不 满 。 根 据 他 们 的 观点 ， 你 能 通过 逻辑 
规则 来 定义 的 概念 仅仅 是 冰山 一 角 ， 其 实 表 面 之 下 还 有 很 多 东西 是 形 
式 推理 无 法 看 到 的 。 而 同样 的 道理 ， 我 们 脑子 里 所 想 的 东西 也 是 潜 意 
识 的 。 你 不 能 仅 靠 构造 一 个 空洞 的 机 械 化 科学 家 ， 束 想 让 他 把 所 有 有 
意义 的 事情 完成 ， 你 首先 得 给 他 点 什么 东西 ， 例 如 一 个 真正 的 大 脑 ， 
能 和 真实 的 感觉 相连 ， 在 真实 世界 中 成 长 ， 甚 至 可 能 要 党 第 绊 他 的 
脚 。 你 怎样 才能 构造 这 样 的 大 脑 呢 ? 通过 逆向 分 析 。 如 果 想 对 一 辆 车 
进行 逆向 分 析 ， 你 就 应 看 看 发 动机 盖 下 面 。 如 果 想 对 大 脑 进 行 逆 同 分 
析 ， 你 就 要 看 看 脑壳 里 面 。 


第 四 草 
联结 学 派 : 大 脑 如 何 学 习 


赫 布 律 ， 瓯 如 它 为 人 们 所 知 的 那样 ， 是 联结 主义 的 黄 基 石 。 确 
实 ， 联 结 主义 相信 知识 储存 在 神经 元 之 间 的 联结 关系 中 ， 它 也 因此 而 
得 名 。 唐 纳 德 - 赫 布 (Donald Hebb) 是 加 拿 大 的 心理 学 家 ， 他 在 1949 
年 出 版 的 《行为 的 组 织 》 (The Organization of Behavior) 一 书 中 这 样 
说 道 : “ 当 A 细 胞 的 轴 突 和 B 细 胞 足够 近 ， 并 且 重 复 或 不 断 地 对 其 放电 
时 ，A、B 中 的 一 个 细胞 或 者 两 个 细胞 都 会 经 历 生 长 过 程 或 者 代谢 改 


变 ， 这 样 A 细 胞 (作为 对 B 细 胞 放电 的 细胞 之 一 ) 的 效率 就 会 得 到 提 
高 。” 这 上段 话 经 常 被 转述 成 “一 起 放电 的 神经 元 也 会 被 串 连 在 一 起 ”。 


赫 布 律 是 心理 学 和 神经 科学 思想 的 融合 ， 其 中 挨 杂 了 合理 的 猜 

想 。 通 过 连接 来 进行 学 习 ， 是 英国 经 难 主 义 者 最 喜爱 的 话题 ， 从 洛克 
和 体 诬 到 约翰 称 勒 都 是 如 此 。 威 廉 . 钳 姆 斯 【William James) 在 其 著作 
《心理 学 原理 》 (Principles of Psychology) 中 ， 阐 明了 连接 的 主要 原 
理 ， 这 和 赫 布 律 十 分 相似 ， 只 是 大 脑 活动 被 神经 元 取代 ， 放 电 效 率 补 
兴 理 的 传播 取代 。 差 不 多 同时 ， 伟 大 的 西班牙 神经 学 科学 家 圣地 亚 哥 . 
拉 蒙 . 卡 哈 尔 第 一 次 对 脑 部 进行 详细 观察 ， 利 用 当时 发 明 的 高 尔 基 染色 
法 来 对 单个 神经 元 进行 染色 ， 把 他 所 看 到 的 编 成 上 有 目录， 就 像 植 物 学 家 
对 树木 的 新 品种 进行 分 类 一 样 。 赫 布 时 期 ， 神 经 学 科学 家 对 神经 元 如 


何 发 挥 功能 有 了 彻底 了 解 ， 但 赫 布 是 第 一 个 提出 这 种 机 制 的 人 ， 通 过 
这 个 机 制 可 以 对 连接 进行 编码 。 


在 符号 学 派 中 ， 符 号 和 它们 代表 的 概念 之 间 有 一 一 对 应 的 关系 。 
相反 ， 符 号 学 派 的 代表 方式 却 征 分 散 式 的 : 每 个 概念 由 许多 神经 元 来 
表示 ， 而 每 个 神经 元 又 会 和 其 他 神经 元 一 起 代表 许多 不 同 的 概念 。 互 
相沿 发 的 神经 元 会 形成 赫 布 所 称 的 “细胞 集 *。 概 念 和 记忆 由 细胞 集 在 
大 脑 中 表示 出 来 。 每 个 细胞 集 都 可 以 包含 来 目 不 同 大 脑 区 域 的 神经 
元 ， 也 可 以 和 其 他 集合 相互 重要 。"“ 腿 ”的 细胞 集中 包含 “ 脚 ” 的 细胞 
集 ， 包 含 脚 的 图 片 的 细胞 集 ， 以 及 脚 的 声音 的 细胞 集 。 如 果 你 问 一 个 
符号 学 派系 统 ,，“ 纽 约 ” 这 个 概念 在 哪里 被 表示 出 来 ， 它 可 以 指向 存储 
该 记忆 的 准确 位 置 。 在 联结 学 派 体系 中 ， 答 案 殉 是 “这 个 概念 通过 这 里 
一 点 、 那 里 一 点 地 被 储存 起 来 ”。 


符号 学 派 和 联结 学 派 的 另外 一 个 区 别 就 在 于 ， 前 者 是 按 次 序 的 ， 

而 后 者 是 平行 的 。 在 逆向 演绎 中 ， 我 们 可 以 一 步 一 步 地 弄 明 白 ， 为 了 
从 前 提出 发 得 到 满意 的 结论 ， 需 要 哪些 新 的 规则 。 而 在 联结 学 派 模型 
中 ， 根 据 赫 布 律 ， 所 有 的 神经 元 都 会 同时 进行 学 习 。 这 也 反映 了 计算 
机 和 人 脑 之 间 的 不 同属 性 。 计 算 机 做 每 件 事 都 会 一 点 点 来 ， 例 如 ， 把 
两 个 数 相 加 ， 或 者 拉 开 关 。 所 以 为 了 完成 所 有 有 意义 的 事情 ， 计 算 机 
得 经 过 很 多 步骤 ， 但 那些 步骤 可 以 很 快 被 完成 ， 因 为 品 体 管 每 秒 可 以 
打开 、 关 闭 数 十 亿 次 。 相 反 ， 人 脑 可 以 同时 进行 多 项 运算 ， 这 时 数 十 
亿 的 神经 元 会 同时 起 作用 ， 但 每 项 远 算 都 会 很 慢 ， 因 为 神经 元 最 多 可 
每 秒 放 电 1000 次 。 


计算 机 里 晶体 管 的 数量 已 经 赶 上 人 类 大 脑 里 神经 元 的 数量 ， 但 在 
连接 数量 上 ， 人 类 的 大 脑 轻易 获胜 。 在 一 人 台 微 处 理 袁 中 ， 典 型 的 晶体 
管 仅仅 和 其 他 几 个 品 体 管 直接 相连 ， 而 派 上 用 场 的 平面 半导体 技术 对 
计算 机 功能 的 发 挥 又 有 很 大 的 限制 。 相 反 ， 一 个 神经 元 号 有 数 千 个 突 
触 。 如 采 你 走 在 大 街 上 碰 到 束 人 ， 你 认 出 他 只 需要 0.1 秒 。 以 神经 转换 


的 速度 ， 这 些 时 间 勉 强 够 用 来 进行 100 个 处 理 步骤 ， 但 在 那些 处 理 步 又 
中 ， 你 的 大 脑 能 够 浏览 整个 记忆 库 ， 找 到 最 佳 搭配 ， 然 后 使 其 适应 狐 
的 背景 〈 不 同 的 服装 、 不 同 的 灯光 等 ) 。 在 大 脑 中 ， 每 个 处 理 步骤 有 
可 能 会 很 复杂 ， 而 且 会 涉及 很 多 信息 ， 并 符合 分 散 的 概念 表达 方式 。 


这 并 不 意味 着 我 们 就 不 能 利用 计算 机 来 模拟 人 脑 ， 毕 葛 这 是 联结 
学 派 算 法 要 做 的 事 。 因 为 计算 机 是 通用 的 图 灵机 ， 只 要 我 们 给 它 足 够 
的 时 间 和 记忆 力 ， 它 整 能 执行 大 脑 的 计算 ， 以 及 别 的 任何 事情 。 尤 其 
计算 机 可 以 利用 速度 来 弥补 缺乏 连接 的 劣势 ， 千 千 万 万 吉利 用 同样 的 
线 来 模拟 1000 根 线 。 实 际 上 ， 目 前 计算 机 和 人 脑 相 比 ， 主 要 的 限制 是 
能 量 损 耗 : 人 的 大 脑 请 耗 的 能 量 仅仅 相当 于 一 个 小 灯泡 ， 而 沃 森 消耗 
的 电 却 能 总 亮 整 标 办 公 楼 。 


然而 为 了 模拟 大 脑 ， 我 们 需要 的 不 仅仅 是 赫 布 律 ， 还 要 知道 大 脑 
征 如 何 构造 的 。 每 个 神经 元 就 像 一 棵 小 树 ， 有 数目 惊人 的 根 须 ( 树 
突 ) 还 有 细 长 虹 蜂 的 树干 〈 轴 突 ) 。 大 脑 就 是 由 数 十 亿 棵 这 样 的 树 组 
成 的 和 森林， 但 这 些 树 也 有 不 同 寻 党 的 地 方 : 每 棵 树 的 校 了 都 会 和 其 他 
数 千 棵 树 的 根部 有 连接 〈 突 触 ) ， 形 成 大 片 你 没 见 过 的 纠缠 状态 。 有 
些 神 经 元 有 很 短 的 轴 突 ， 而 有 些 神经 元 的 轴 突 则 很 长 ， 可 以 从 大 脑 的 
一 边 缠 绕 到 男 一 边 。 你 大 脑 里 轴 突 的 长 度 相当 于 地 球 到 月 腕 的 距离 。 


这 瞩 和 森林 还 会 充满 电流 。 火 星 会 沿 痢 树干 内 烁 ， 然 后 会 引发 相 邻 
树木 更 多 的 火化 。 时 不 时 整个 区 域 的 处 林 会 使 目 己 进入 狂热 状态 ， 然 
后 又 会 平静 下 来 。 如 有 果 你 动 动 脚趾 ， 会 发 生 一 系列 放电 现象 ， 人 们 称 
之 为 “动作 电位 *。 这 种 放电 现象 会 沿 着 你 的 月 髓 一 直到 达 腿 部 ， 直 到 
到 达 你 的 脚趾 肌肉 ， 然 后 告诉 肌肉 要 运动 。 你 的 大 脑 运转 时 的 情景 整 
苹 这 些 电 火 花火 光 四 里 的 场面 。 如 果 你 能 坐 在 大 脑 里 面 ， 看 看 你 阅读 
这 页 书 时 大 脑 发 生 了 什么 ， 你 看 到 的 情景 会 让 科 乡 小 说 里 最 繁忙 的 都 
市 景象 也 进 色 几 分 。 这 个 十 分 复 洒 的 神经 元 放电 模式 的 背后 ， 束 是 你 
的 意识 在 起 作用 。 


在 医 布 时 代 ， 没 有 什么 方法 能 够 测量 突 触 的 强度 或 者 发 生 在 其 内 
部 的 变化 ， 更 不 用 说 弄 明 日 突 触 变化 的 分 子 生物 学 相关 信息 。 如 今 ， 
我 们 知道 ， 当 突 触 后 神经 元 在 突 触 前 神经 元 之 后 会 很 快 放电 时 ， 突 触 
会 变 大 〈 或 重新 形成 突 触 ) 。 和 所 有 的 细胞 一 样 ， 神 经 元 里 外 有 不 同 
的 离子 浓度 ， 罕 过 神经 元 的 细胞 膜 形成 一 股 电压 。 当 突 触 前 神经 元 放 
电 时 ， 微 小 的 赛会 问 突 触 间 聊 释 放 神 经 递 质 分 子 。 这 会 使 突 触 后 神经 
元 的 膜 中 的 通道 打开 ， 让 钾 离 子 和 钠 离 子 进 入 ， 最 终 会 改变 通过 膜 的 
电 庄 。 如 果 有 足够 多 的 突 触 前 神经 元 一 起 放电 ， 电 压 会 突然 升 高 ， 一 
个 动作 电位 会 顺 着 突 触 后 神经 元 的 轴 突 而 下 。 这 还 会 使 离子 通道 变 得 
更 加 灵敏 ， 并 出 现 新 的 通道 ， 对 突 触 进行 加 强 。 台 我 们 的 知识 所 能 达 
到 的 水 平 ， 这 殉 是 神经 元 进行 学 习 的 过 程 。 


下 一 步 就 是 把 这 个 过 程 运用 到 算法 中 。 


感知 器 的 兴盛 与 带 亡 


第 一 个 正式 的 神经 元 模型 是 由 沃 伦 : 麦 卡 洛克 (Warren 
McCulloch) 和 沃尔特 - 皮 尝 (Walter Pitts) 于 1943 年 提出 的 。 这 个 模型 
看 起 来 很 像 组 成 计算 机 的 逻辑 门 。 当 “或 ” 门 至 少 一 个 输入 开关 打开 
时 ,， “或 ” 门 开通 ， 当 所 有 输入 开关 打开 时 ,“ 且 ” 门 开 通 。 当 其 输入 的 
活跃 信息 超过 某 个 界限 值 时 ， 一 个 麦 卡 洛 克 一 皮 光 神经 元 会 打开 。 另 
外 ， 如 果 界 限 值 只 有 一 个 ， 神 经 元 就 相当 于 一 道 “ 或 " 门 ; 如果 界限 值 
等 于 输入 信息 的 数量 ， 神 经 元 就 相当 于 一 道 * 且 ” 门 。 另 外 ， 一 个 麦 卡 
洛克 一 皮 次 神经 元 会 阻止 男 外 一 个 麦 卡 洛克 一 皮 淘 神经 元 打开 ， 这 就 
模拟 了 抑制 性 突 触 和 * 非 >? 门 。 因 此 神经 元 的 一 个 网 络 就 可 以 完成 计算 
机 的 所 有 计算 。 在 早 些 年 ， 计 算 机 常常 被 称 为 "电脑 ”， 这 不 只 是 一 个 
类 比 那么 简单 。 


麦 卡 洛克 一 皮 淘 神经 元 做 不 了 的 事情 就 是 学 习 。 为 此 我 们 需要 对 
神经 元 之 间 的 连接 给 予 不 同 的 权重 ， 这 就 是 所 谓 的 “感知 器 *。 感 知 器 
于 20 世 纪 50 年 代 由 康 奈 尔 大 学 的 心理 学 家 弗兰克 : 罗 森 布 拉 特 (Frank 
Rosenblatt) 发 明 。 作 为 宣 有 魅力 的 演讲 者 和 活路 人物， 罗 森 布 拉 特 在 
早期 机 器 学 习 领 域 形成 的 过 程 中 ， 比 任何 人 付出 的 都 要 多 。“ 感 知 
器 ”这 个 名 称 源 于 他 的 兴趣 ， 他 喜欢 将 自己 的 模型 应 用 到 诸如 演讲 和 字 
符 识别 的 感知 任务 中 。 他 没有 将 感知 器 应 用 于 软件 中 ， 因 为 在 那个 年 
代 这 个 过 程 会 非常 缓慢 ， 他 构建 了 自己 的 装置 。 权 值 是 由 可 变 电 阻 器 
来 实现 的 ， 这 些 电阻 器 和 调 光 灯 开 关中 的 那些 电阻 器 一 样 ， 而 且 权 值 
学 习 由 电动 机 来 实现 ， 电 动机 会 打开 电阻 器 上 的 开关 。 


在 感知 器 中 ， 一 个 正 权 值 代表 一 个 兴奋 性 连接 ， 一 个 负 权 值 代表 
一 个 抑制 性 连接 。 如 果 其 输入 量 的 加 权 和 高 于 界限 值 ， 那 么 会 输出 1; 
如 果 加 权 和 小 于 界限 值 ， 那 么 输入 0。 通 过 改变 权 值 和 界限 值 ， 我 们 可 
以 改变 感知 器 计算 的 函数 。 当 然 ， 这 种 做 法 忽略 了 神经 元 发 挥 作用 的 
很 多 细节 ， 但 我 们 想 让 这 个 过 程 尽 可 能 简单 点 。 我 们 的 目标 是 形成 一 
种 多 用 途 的 学 习 算 法 ， 而 不 是 构建 一 个 大 脑 的 现实 模型 。 如 果 被 我 们 
忽略 的 一 些 细节 最 后 证 明 很 重要 ， 可 以 在 后 面 加 上 去 。 尽 管 我 们 把 抽 
象 的 东西 简化 了 ， 却 仍 可 以 看 到 这 个 模型 的 每 个 部 分 都 与 神经 元 的 一 
个 部 分 相对 应 〈 见 图 4-1) 。 


树 突 细胞 体 轴 突 
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图 4-1 


输入 量 的 权 值 越 高 ， 相 应 的 突 触 也 会 越 强 。 细 胞 体 把 所 有 加 权 输 
入 量 加 起 来 ， 轴 突 使 结果 变 成 一 个 阶 距 函数 。 图 中 代表 轴 突 的 框 表明 
了 阶 路 函数 的 图 像 ，0 代 表 输 入 量 的 低 值 ， 当 输入 量 到 达 界 限 值 时 ， 会 


突然 变 成 1。 


假设 感知 器 有 两 个 持续 输入 量 x 和 y ( 换 句 话说 ，x 和 y 可 以 是 任何 
数值 ， 不 仅仅 是 0 和 1) ， 那 么 每 个 例子 都 可 以 由 平面 上 的 一 个 点 来 表 
示 ， 而 正面 例子 (例如 ， 感 知 器 中 输出 量 为 1) 和 负面 例子 (输出 量 为 
0) 之 间 的 界线 就 是 一 条 直线 ( 见 图 4-2) 。 


图 4-2 


这 是 因为 这 条 界线 是 由 一 系列 点 组 成 的 ， 在 这 些 点 上 ， 加 权 和 刚 
好 等 于 界限 值 ， 而 一 个 加 权 和 束 是 一 个 线性 函数 。 例 如 ， 如 采 x 的 系数 
是 2，y 的 系数 是 3， 那 么 界限 值 是 6， 界 限 就 由 方程 式 2x+3y=6 来 确定 。 
Xx=0，y=2 的 点 号 在 界线 上 ， 为 了 停留 在 这 条 线 上 ， 我 们 要 水 平 同 右 平 
移 3 个 单位 ， 同 时 垂直 向 下 平移 2 个 单位 ， 这 样 x 增 加 的 量 就 十 y 减 少 的 
量 ， 经 过 的 点 就 形成 一 条 直线 。 


掌握 感知 器 的 权 值 意味 着 要 改变 直线 的 方 同 ， 知 道 所 有 的 正面 例 
子 痢 在 这 边 ， 所 有 的 负面 例子 部 在 男 一 边 。 在 一 维 概念 中 ， 这 个 界线 
是 一 个 点 ; 在 二 维 概念 中 ， 它 是 一 条 直线 ; 在 三 维 概念 中 ， 它 是 一 个 
面 ， 在 超过 三 维 的 概念 中 ， 它 古 一 个 超 平面 。 在 超 平 面 中 很 难 把 东西 
形象 化 ， 但 数学 丈 是 这 样 发 挥 作 用 的 。 在 n 维 概念 中 ， 我 们 有 nm 个 输入 
量 ， 而 感知 器 有 n 个 权 值 。 为 了 确认 感知 器 是 否 放电 ， 我 们 把 每 个 权 值 
乘 以 相应 的 输入 量 ， 然 后 将 得 数 相 加 ， 和 界限 值 进行 对 比 。 


如 果 所 有 的 输入 量 都 有 一 个 权 值 1， 而 且 界 限 值 是 输入 量 数 值 的 一 
半 ， 当 感知 亏 超 过 一 半 的 输入 量 放电 时 ， 那 么 感知 郁 放 电 。 换 句 话 
说 ， 感 知 器 就 像 一 个 微型 社会 ， 少 数 服 从 多 数 〈 可 能 也 没有 那么 小 ， 
因为 它 有 数 千 个 成 员 ) 。 尽 管 如 此 ， 整 体 来 说 它 并 不 那么 民主 ， 因 为 
一 般 不 是 人 人 都 平等 地 午 有 选择 权 。 神 经 网 络 看 起 来 更 像 社 区 网 络 ， 
在 这 里 ， 几 个 亲密 朋友 比 脸 书 上 的 数 千 个 好 友 更 加 重要 。 最 信任 的 朋 
友 对 你 的 影响 也 最 大 。 如 果 有 个 朋友 推荐 了 一 部 电影 ， 你 去 看 了 ， 觉 
得 喜欢 ， 下 次 可 能 还 会 再 听 他 的 建议 。 另 一 方面 ， 如 采 他 滔滔 不 绝地 
讲 你 不 喜欢 的 电影 ， 你 会 开始 忽略 他 的 建议 “甚至 你 们 的 友情 都 可 能 


变 淡 ) 。 
这 就 是 罗 森 布 拉 特 的 感知 器 算法 掌握 权 值 的 方法 。 


想 想 祖母 细胞 ， 这 是 认 知 神经 学 科学 家 最 热衷 的 思维 实验 。 祖 母 
细胞 是 你 大 脑 中 的 一 个 神经 元 ， 无 论 何 时 你 看 到 自己 的 祖母 ， 它 都 会 
放电 ， 而 且 只 有 这 样 的 情况 才 会 放电 。 祖 母 细 胞 是 否 真 实 存在 有 待 探 
寻 ， 但 我 们 可 以 设计 一 个 ， 并 将 其 应 用 于 机 需 学 习 。 下 面 ， 我 们 来 分 
析 一 下 感知 大 学 习 识 别 你 的 祖母 的 过 程 。 进 入 细胞 的 要 么 是 图 片 中 的 
原始 像素 ,要 么 就 是 图 片 的 各 种 固有 特征 ， 束 像 棕色 的 眼睛 ， 如 来 图 
片上 有 一 双 棕 色 的 眼睛 就 会 取 值 1， 否 则 是 0。 一 开始 ， 从 特征 到 神经 
元 的 所 有 连接 有 小 的 随机 值 ， 束 像 刚 出 生 时 你 大 脑 中 的 突 触 一 样 。 那 
么 我 们 同感 知 邵 展示 了 一 组 图 片 ， 有 些 是 你 祖母 的 ， 有 些 不 是 。 如 有 宁 


感知 器 在 看 到 一 张 你 祖母 的 照片 时 会 放电 ， 或 者 在 看 到 别 的 图 片 时 不 
会 放电 ， 那 么 就 不 需要 进行 学 习 活 动 《如果 东 西 没 坏 ， 就 别 修理 
它 ) 。 但 如 果 感 知 器 在 看 到 你 的 祖母 时 没有 放电 ， 这 意味 着 它 的 输入 
量 的 加 权 和 应 该 取 更 高 的 值 ， 这 样 我 们 融 增 加 进行 中 的 输入 量 的 权 值 
(例如 ， 如 果 你 的 祖母 有 一 双 棕 色 的 眼睛 ， 这 个 特征 的 权 值 会 增 
长 ) 。 相 反 ， 如 果 感 知 器 在 不 该 放电 的 时 候 放 电 ， 我 们 就 减少 活跃 的 
输入 量 的 权 值 。 误 竹 迫 使 学 习 活 动 正常 进行 。 经 过 一 段 时 间 ， 表 明 你 
祖母 的 特征 会 取得 更 高 的 权 值 ， 相 反 则 得 到 低 权 值 。 一 旦 感知 絮 看 到 
你 祖母 时 就 会 放电 ， 而 且 也 只 有 这 时 ， 学 习 才 算 完 成 。 


感知 妖 会 产生 许多 兴奋 。 它 虽然 简单 ， 但 仪 香 借 例子 训练 ， 它 谍 
能 识别 书面 文字 和 语音 。 罗 和 森 布 拉 特 在 康 系 尔 大 学 的 同事 证 实 ， 如 采 
正面 例子 和 人 负面 例子 能 够 通过 超 平面 来 分 离 ， 那 么 感知 器 会 找到 超 平 
面 。 对 于 罗 和 森 布 拉 符 和 其 他 人 来 说 ， 真 正 理解 大 脑 如 何 进 行 学 习 似 乎 
在 能 力 范围 之 内 ， 有 了 这 种 理解 力 ， 束 可 以 得 到 强大 的 多 用 途 学 习 算 
-0 


但 是 感知 避 却 页 壁 了 。 知 识 工 程 师 被 罗 森 布 拉 特 的 观点 激怒 ， 辫 
得 其 不 断 增 长 的 被 关注 度 ， 而 神经 网 络 ， 特 别 是 感知 颖 获得 的 资金 
变 得 越 来 越 多 。 马 文明 斯 基 融 是 其 中 一 个 ， 他 是 罗 森 布 拉 特 之 前 在 布 
朗 士 科 学 高 中 的 同学 ， 那 时 他 还 是 麻 省 理工 学 院 人 工 智能 研究 小 组 的 
领导 (具有 讽刺 意味 的 是 ， 他 的 博士 论文 和 神经 网 络 相 关 ， 但 对 于 神 
经 网 络 ， 他 越 来 越 不 抱 幻 想 ) 。1969 年 ， 明 斯 基 和 他 的 同事 西 摩尔 : 派 
普 特 一 起 出 版 了 《感知 器 》 (Perceptroms) 一 书 ， 该 书 详细 介绍 了 同 
名 算法 的 缺点 ， 还 一 一 列举 了 该 算法 无 法 学 习 的 内 容 。 最 简单 的 一 个 
(所 以 也 是 最 受 批评 的 一 个 ) 就 是 排斥 一 “或 ?功能 (exclusive-OR 
function，XOR) 。 如 果 它 其 中 的 一 个 输入 量 是 对 的 ， 那 么 这 就 是 对 
的 ， 但 如 果 两 个 都 是 对 的 ， 则 是 钳 的 。 例 如 ， 耐 克 的 两 大 忠实 消费 人 
群 被 认为 是 年 轻 男 性 和 中 年 妇女 。 换 名 话说， 如 果 你 是 年 轻 的 XOR 女 
性 ， 那 么 有 可 能 购买 耐克 的 鞋子 。 年 轻 挺 好 的 ， 做 女人 也 挺 好 的 ， 但 


两 个 加 起 来 束 不 一 定好 了 。 如 果 你 既 不 年 轻 ， 也 不 是 女性 ， 那 么 你 也 
不 是 耐克 做 广告 的 对 象 。XOR 的 问题 束 在 于 ， 没 有 能 够 区 分 正面 例子 
和 负面 例子 的 直线 。 图 4-3 展 示 了 两 种 不 可 行 的 备 选 方法 : 


既然 感知 侨 只 能 学 习 线性 界线 ， 那 么 它 束 无 法 对 XOR 进 行 学 习 。 
而 如 有 果 感 知 右 无 法 做 到 这 一 点 ， 殊 无 法 很 好 地 模拟 大 脑 学 习 的 方法 ， 
也 不 是 终极 算法 可 行 的 备 选项 。 


年 轻 


男性 女性 


图 4-3 
然而 ， 一 台 感 知 句 只 能 模拟 单个 神经 元 的 学 习 过 程 ， 尽 管 明 斯 基 


和 派 普 特 承 认 ， 几 层 相 互 连 接 的 神经 元 能 做 的 应 该 更 多 ， 但 他 们 找 不 
到 研究 这 些 神经 元 的 方法 ， 其 他 人 也 找 不 到 。 问 题 束 在 于 ， 没 有 明确 


的 方法 来 改变 “ 隐 层 ”中 神经 元 的 权 值 ， 以 减少 输出 层 中 神经 元 造成 的 
充 考 。 每 个 隐藏 的 神经 元 会 通过 多 种 路 线 来 影响 输出 量 ， 而 且 造 成 每 
个 误差 的 原因 也 可 能 达到 上 千 种 。 你 该 责怪 谁 ? 或 者 ， 相 反 ， 谁 该 因 
为 正确 的 输入 量 而 受到 赞扬 ? 这 个 问题 在 我 们 努力 对 一 个 复 洒 模型 进 
行 学 习 时 随时 会 出 现 ， 而 这 个 问题 也 是 机 器 学 习 领 域 中 的 中 心 问题 。 
从 数学 角度 看 ，《 感 知 邵 》 无 懈 可 击 ， 思 路 清晰 、 效 果 明 显 。 机 需 学 
习 当 时 主要 和 神经 网 络 相 关联 ， 而 且 多 数 研究 者 〈 更 不 用 说 创建 人 ) 
得 出 结论 ， 构 建 和希 能 体系 的 唯一 方法 就 古 对 其 进行 明确 设 定 。 在 未 来 
15 年 ， 知 识 工 程 师 会 站 在 舞台 中 央 ， 而 机 右 学 习 则 会 变 成 历史 的 残 
ya 


物理 学 家 用 玻璃 制作 大 脑 


如 果 机 器 学 习 的 历史 古 一 部 好 莱 坦 电影 ， 电 影 中 的 反面 人 物 就 古 
马 文 : 明 斯 基 。 他 是 给 日 雪 公 主 毒 苹果 的 邪恶 旦 后 ， 让 日 雪 公主 处 于 置 
迷 状 态 〈 在 1988 年 的 一 篇 文章 中 ， 西 摩尔 : 派 普 特 甚 至 半 开 玩笑 地 将 目 
己 比 作 故 事 里 的 猎人 ， 故 事 里 旦 后 派 他 去 杀 死 森林 中 的 白雪 公主 ) 
那么 日 马 王子 驶 是 名 叫 约 除 ' 霍 普 菲 尔 德 的 加 州 理工 学 院 的 物理 学 家 。 
1982 年 ， 霍 普 菲 尔 德 发 现 了 大 脑 和 目 旋 玻 璃 (spinglass) 惊人 的 相似 
之 处 ， 目 旋 玻 璃 是 深 受 统计 物理 学 家 喜爱 的 特殊 材料 。 这 引起 联结 学 
派 的 复兴 ， 在 第 一 个 解决 赞誉 分 配 问 题 的 算法 发 明 出 来 的 几 年 ， 联 结 
学 派 复兴 达到 顶峰 ， 并 进入 一 个 新 时 代 ， 机 器 学 习 代 替 知 识 工 程 学 成 
为 人 工 智能 领域 的 主 寻 范式 。 


旋转 玻璃 其 实 并 不 是 玻璃 ， 虽 然 有 一 些 玻璃 的 属性 ， 其 实 是 磁性 
材料 。 每 个 电子 都 是 一 块 微小 的 磁铁 ， 由 于 本 吴 的 目 旋 和 运动， 可 以 
指 “ 上 ?或 指 * 下 ”。 比 如 在 铁 这 样 的 材料 中 ， 电 子 目 旋 束 趋 问 于 往 上 : 
如 时 一 个 目 旋回 下 的 电子 被 多 个 目 旋 和 同上 的 电子 包围 ， 这 个 电子 可 能 


会 翻转 向上。 如 末 一 块 铁 中 的 大 部 分 目 旋 都 问 上 ， 那 么 这 块 铁 束 会 变 
成 一 块 磁铁 。 在 普通 人 磁铁 中 ， 每 对 相 邻 电子 目 旋 的 交互 力 部 一 样 ， 但 
在 目 旋 玻璃 中 ， 这 种 力 束 可 能 不 一 样 。 这 种 力 甚 至 会 是 相反 的 ， 使 得 
附近 的 电子 目 旋 指向 相反 的 方 喇 。 当 普通 磁铁 所 有 的 目 旋 都 排 成 一 行 
时 ， 能 量 是 最 低 的 ， 但 在 目 旋 玻璃 中 却 没 那 么 们 单 。 的 确 ， 找 到 目 放 
玻璃 的 最 低能 量 状态 就 是 一 个 NP 一 完全 问题 ， 意 味 着 几乎 所 有 其 他 最 
优化 难题 部 可 以 人 简化 为 NP 一 完全 问题 。 因 为 这 个 ， 目 旋 玻 璃 没有 必要 
适应 其 整体 能 力 最 低 的 状态 。 这 很 像 雨 水 可 能 会 沿 着 山坡 流入 湖 中 ， 
而 不 是 进入 大 海 ， 目 旋 玻璃 可 能 会 陷入 局 部 最 小 值 的 困境 ， 而 不 是 在 
全 局 最 小 值 中 得 到 发 展 。 处 于 最 小 值 状态 中 的 能 量 会 比 在 其 他 状态 下 
低 ， 通 过 翻转 一 圈 ， 最 低能 量 状态 整 可 以 转变 为 其 他 状态 。 


霍 普 菲 尔 德 注意 到 目 旋 玻 璃 和 神经 网 络 之 间 有 趣 的 相似 点 : 一 个 
电子 的 目 旋 对 其 相 邻 电子 的 活动 所 做 的 反应 和 一 个 神经 元 的 反应 十 分 
相似 。 在 电子 的 情况 中 ， 如 有 果 相 邻 电子 的 加 权 和 超过 界限 值 ， 电 子 允 
会 同上 翻 ， 有 反之 则 向 下 翻 。 受 到 这 一 点 的 局 发 ， 他 确定 了 一 种 神经 网 
络 ， 和 目 旋 玻璃 一 样 随 着 时 间 的 推移 而 演变 ， 他 还 提出 网 络 的 最 低 值 
状态 整 古 它 的 记忆 。 每 个 这 样 的 状态 都 具备 原始 状态 的 “吸引 
盆 ”(\basin of attraction) ， 原 始 状态 就 收敛 于 该 盆 中 ， 这 样 这 个 网 络 
忠 可 以 进行 模式 识别 了 。 例 如 ， 如 果 其 中 的 一 个 记忆 是 由 数 子 9 形成 的 
类 日 像素 模式 ， 而 网 络 看 到 一 个 扭曲 了 的 9， 它 会 收敛 成 “理想 ”的 9， 
然后 据 此 重新 识别 它 。 突 然 间 ， 大 量 的 物理 理论 能 够 应 用 于 机 句 学 习 
中 ， 而 随 之 也 涌 入 大 批 的 统计 物理 学 家 ， 帮助 目 旋 玻璃 打破 之 前 就 陷 
入 的 局 部 最 小 值 困 境 。 


虽然 如 此 ， 但 目 旋 玻璃 仍然 是 大 脑 的 一 个 不 现实 的 模型 。 对 于 一 
个 电子 来 说 ， 目 旋 相 互 作用 是 对 称 的 ， 而 大 脑 中 神经 元 之 间 的 连接 却 
不 是 对 称 的 。 霍 普 菲 尔 德 的 模型 名 上 略 的 男 外 一 个 大 问题 就 十， 真正 的 
神经 元 是 和 统计 相关 的 : 它们 不 会 根据 其 输入 量 来 确定 地 进行 打开 或 
关闭 。 随 着 输入 量 加 权 和 的 增加 ， 神 经 元 更 有 可 能 放电 ， 但 不 确定 它 


古人 否 真 的 会 放电 。1985 年 ， 大 卫 : 艾 克利 、 杰 夫 : 圣 顿 、 特 里 : 索 诺 斯 基 
把 霍 普 菲 尔 德 网 络 里 的 确定 性 神经 元 用 可 能 性 神经 元 代替 。 现 在 一 个 
神经 网 络 的 状态 怠 有 了 概率 分 布 ， 高 能 量 状态 的 概率 要 比 低能 量 状态 
的 概率 低 得 多 。 实 际 上 ， 找 到 处 于 特定 状态 中 的 网 络 ， 这 样 的 概率 由 
著名 的 热力 学 中 的 玻 尔 兹 曼 分 布 得 出 ， 因 此 他 们 称 目 己 的 网 络 为 玻 尔 
效 曼 机 器 。 


一 合 玻 尔 兹 曼 机 器 拥有 混合 的 感官 和 隐藏 神经 元 (分 别 类 似 于 视 
网 膜 和 大 脑 ) 。 它 通过 清醒 和 睡眠 两 种 交替 状态 进行 学 习 ， 就 像 人 类 
一 样 。 清 醒 时 ， 感 官 神 经 元 根据 数据 指令 放电 ， 隐 藏 昼 经 元 根据 网 络 
的 动态 和 感官 输入 来 逐步 发 展 。 例 如 ， 如 采 网 络 收 到 9 的 图 片 ， 与 图 片 
中 黑色 像素 对 应 的 神经 元 会 留 下 ， 其 他 的 则 离开 ， 而 隐 减 神经 元 则 在 
给 定 那 些 像素 值 的 情况 下 ， 根 据 玻 尔 兹 曼 分 布 随 机 放电 。 睡 眠 状态 
时 ， 机 器 会 做 梦 ， 让 感官 和 隐藏 神经 元 都 能 自由 漂移 。 新 一 天 的 黎明 
到 来 之 前 ， 机 器 会 统计 睡梦 中 的 状态 ， 以 及 昨天 活动 中 的 状态 ， 直 到 
进行 比较 ， 接 着 改变 连接 权 值 ， 让 权 值 符合 搭配 。 如 果 两 个 神经 元 日 
天 时 易于 在 一 起 放电 ， 但 睡眠 时 放电 次 数 却 变 少 了 ， 那 么 它们 连接 的 
权 值 会 升 高 ， 如 采 情 况 相 反 ， 则 权 值 会 降低 。 通 过 日 复 一 日 重复 这 样 
的 工作 ， 感 官 神经 之 间 经 过 预测 的 相关 性 会 进一步 发 展 ， 知 道 它 们 和 
真正 的 神经 元 搭配 起 来 。 这 时 ， 玻 尔 兹 曼 机 妖 束 掌握 了 一 个 很 好 的 数 
据 模 型 ， 并 有 效 解 决策 誉 分 布 问 题 。 


杰 夫 : 圣 顿 在 接 下 来 的 几 十 年 继续 在 玻 尔 兹 曼 机 器 中 壬 试 了 许多 变 
量 。 茸 顿 由 心理 学 家 变 成 计算 机 科学 家 ， 他 是 逻辑 运算 (被 应 用 于 所 
有 计算 机 中 ) 的 发 明 者 一 一 乔治 :布尔 的 曾孙 ， 有 是 世界 领先 的 联结 主义 
者 。 为 了 了 解 大 脑 如 何 运转 ， 他 比 任何 人 付出 的 时 间 、 精 力 都 要 多 。 
他 讲 到 有 一 天 他 怀 着 极度 兴奋 的 心情 下 班 回 家 ， 惊 呼 :“ 我 做 到 了 1! 我 
知道 大 脑 怎 么 运转 了 ! ”他 的 女儿 回答 道 :“ 啊 ! 爸爸 ， 你 怎么 又 来 
了 1! ” 储 顿 最 近 的 热情 在 于 人 研究 深度 学 习 ， 本 章 的 后 面部 分 会 谈 到 。 他 
还 参与 了 反 疝 传播 的 研究 ， 这 古 一 个 比 玻 尔 效 曼 机 器 能 更 好 地 解决 芝 


誉 分 布 问题 的 算法 ， 我 们 后 面 会 谈 到 。 玻 尔 效 受 机 器 原则 上 可 以 解决 
赞誉 分 布 问题 ， 但 在 实践 中 ， 学 习 这 个 行为 非常 缓慢 且 痛 音 ， 对 大 多 
数 应 用 来 说 ， 玻 尔 效 受 机 需 有 点 不 切实 际 。 下 一 个 突破 会 涉及 解决 麦 
卡 洛 克 和 皮 次 时 期 的 另外 一 个 过 度 简 化 (oversimplication) 问题 。 


世界 上 最 重要 的 曲线 


忠 其 相 邻 神经 元 而 言 ， 一 个 神经 元 只 能 处 于 两 种 状态 ， 放电 或 不 
放电 。 但 是 这 忽略 了 一 个 很 重要 的 巧妙 之 处 。 动 作 电位 寿命 短 ， 电 压 
会 在 一 秒 之 内 又 然 升 高 ， 然 后 突然 回 到 静 奶 状态 。 而 单个 峰值 对 接收 
神经 几乎 不 会 有 影响 ， 为 了 唤醒 接 收 神经 ， 和 需要 一 连 串 连续 不 断 的 峰 
值 。 典 型 的 神经 元 会 偶尔 在 没有 刺激 的 情况 下 电压 达到 峰值 ， 当 刺激 
建立 起 来 时 ， 电 压 达到 峰值 的 频率 会 越 来 越 高 ， 然 后 保持 在 它 所 能 达 
到 峰值 的 最 快速 度 ， 快 于 这 个 速度 时 ， 不 断 增强 的 刺激 殉 没 有 歼 采 
了 。 和 神经 元 与 其 说 是 一 道 逻辑 | ]， 不 如 说 是 一 台电 压 频率 转换 器 。 随 
电压 而 变化 的 频率 曲线 如 图 4-4 所 示 。 


电压 


图 4-4 


该 曲线 看 起 来 像 被 拉 长 的 字母 $， 它 有 很 多 叫 法 ， 比 如 逻辑 函数 、 
S 形 函数 和 S 形 曲线 。 仔 细 人 研究 它 吧 ， 因 为 这 是 世界 上 最 重要 的 曲线 。 
首先 输出 量 随 着 输入 量 绥 慢 增 长 ， 如 此 绥 慢 ， 似 乎 保持 不 变 。 接 着 它 
开始 变化 得 很 快 ， 然 后 变 得 更 快 ， 之 后 越 来 越 慢 ， 直 到 几乎 保持 不 变 
为 止 。 唱 体 管 的 转换 曲线 ， 将 其 输入 电 庄 和 输出 电压 联系 在 一 起 ， 也 
征 一 条 S 形 曲线 。 所 以 计算 机 和 大 脑 都 充满 了 S 形 曲线 。 这 还 没 结 束 ， 
S 形 曲线 是 所 有 种 类 相 变 的 形状 : 电子 应 用 领域 目 旋 反 转 的 概率 、 铁 的 
傍 化 、 将 少量 记忆 写 到 硬 副 上 、 细 胞 中 离子 通道 的 打开 、 冰 块 融化 、 
水 蒸发 、 早 期 宇宙 的 膨胀 扩张 、 进 化 中 的 间断 平衡 、 科 学 中 的 范式 转 
移 、 新 技术 的 传播 、 离 开 多 民族 社区 的 日 人 大 迁徙 、 谣 言 、 流 行 病 、 
命 、 带 国 的 没落 等 。“3 引 爆 点 ”也 很 适合 (可 能 不 那么 有 了 吸引 力 ) “S 
形 曲线 ?这 个 名 字 。 在 两 个 相 邻 板块 的 相对 位 置 中 ， 地 震 吏 是 一 个 相 
变 。 夜 里 的 碰 接 声 ， 也 只 是 你 隔壁 房间 里 微观 板块 移动 的 声音 ， 所 以 


别 害 介 。 约 琴 夫 :能 彼 特 说 过 ， 经 济 是 在 裂 颖 和 飞跃 中 得 以 发 展 的 : S 
形 曲线 殉 是 创造 性 破坏 的 形状 。 经 济 收益 和 损失 对 你 的 幸福 度 的 影 啊 
遵循 S 形 曲线 原则 ， 所 以 不 要 在 大 事 上 感到 震 恼 。 随 机 的 逻辑 公式 可 满 
足 的 概率 (典型 的 NP 完全 问题 ， 随 着 公式 变 长 ， 会 经 历 从 接近 1 到 接 
近 0 的 相 变 。 统 计 物 理学 家 化 了 一 夺 子 时 间 来 研究 相 变 。 


在 海明威 的 《太阳 照常 升 起》 中， 当 麦 克 - 坎 贝尔 被 问 到 他 是 如 何 
走向 破产 时 ， 他 管道 :“ 有 两 种 方式 ， 先 是 慢 慢 地 ， 然 后 突然 破 
产 。” 雷 受 见 第 的 情况 也 十 分 相似 。 这 束 是 $ 形 曲线 的 业 华 。 未 来 学 家 
保罗 : 辽 夫 预言 的 规则 吏 是 : 寻找 S 形 曲线 。 当 你 没 法 调 好 淋浴 的 温度 
时 (开始 水 很 冷 ， 然 后 很 快 又 变 得 很 热 ; ， 都 是 S 形 曲线 的 错 。 你 做 爆 
米花 时 ， 看 看 S 形 曲线 的 进度 ， 一 开始 什么 也 没 发 生 ， 几 粒 玉 米 爆 开 ， 
又 有 一 把 爆 开 ， 很 多 玉米 突然 像 烟花 一 样 炮 开 ， 更 多 的 玉米 爆 开 ， 最 
后 你 束 可 以 吃 爆 米 伦 了 。 你 肌肉 的 每 个 动作 都 革 循 S 形 曲线 ， 先 十 缓慢 
移动 ， 然 后 快速 移动 ， 最 后 义 缓慢 移动 。 当 迪士尼 的 动画 师 指出 这 一 
上 护 时 ,动画 片 变 得 更 目 然 了 ， 然 后 人 们 纷纷 模仿 。 你 的 眼睛 沿 厦 S 形 曲 
线 移动 ， 注 视 一 样 东 西 然后 换 男 一 样 ， 你 的 意识 也 跟 你 的 眼睛 一 起 转 
移 。 和 情绪 波动 也 属于 相 变 。 出 生 、 长 大 、 葵 入 爱河 、 结 婚 、 怀 孕 、 工 
作 、 失 业 、 搬 到 新 的 城市 、 升 职 、 退 休 、 和 有 死亡， 这 些 都 属于 相 变 。 皇 
宙 束 是 相 变 的 巨大 集合 体 ， 从 宇宙 到 微观 世界 ， 从 世俗 到 人 生 的 改 

S 形 曲线 作为 一 个 独立 的 模型 ， 不 仅 很 重要 ， 它 还 是 数学 的 万 事 
通 。 如 琳 放 大 它 的 中 段 部 位 ， 你 会 发 现 它 近似 一 条 直线 。 很 多 我 们 认 
为 是 线性 的 现象 ， 其 实 都 是 S 形 曲线 ， 因 为 没有 什么 能 够 曼 无 限制 地 增 
长 下 去 。 因 为 相对 性 和 反 牛 顿 定律 ， 加 速度 并 不 会 随 着 力 的 施加 而 呈 
线性 增长 ， 但 会 遵循 S 形 曲线 ， 以 0 为 中 心 。 电 路 中 或 者 灯泡 中 电阻 的 
电流 也 不 会 随 着 电压 的 增长 而 线性 增长 《直到 灯泡 中 的 灯丝 熔化 ， 这 
本 身 又 是 另外 一 个 相 变 ) 。 如 果 你 把 S 形 曲线 缩小 ， 它 会 近似 一 个 阶 路 
函数 ， 输 出 值 会 突然 从 0 界限 值 变 到 1 界限 值 。 那 么 根据 输入 电压 ， 同 


样 的 曲线 也 会 表示 这 些 装 置 中 电阻 的 工作 原理 ， 包 括 数字 计算 机 和 类 
似 的 狠 置 ， 如 扩 音 右 和 广播 协调 器 。S 形 曲线 的 开始 部 分 是 有 效 指数 ， 

在 饱和 点 附近 它 则 接近 指数 式 腾 减 。 当 有 人 讨论 指数 式 增长 时 ， 问 问 
你 目 己 : 它 什么 时 候 会 变 成 一 条 S 形 曲线 ? 人 口 爆炸 什么 时 候 才 会 慢 慢 
消失 ， 摩 尔 定 律 的 重要 性 什么 时 候 削 减 ， 或 者 说 扩 术 奇异 点 什么 时 候 
才 不 会 发 生 ? 辨别 一 条 S 形 曲线 ， 你 就 会 得 到 一 条 钟 形 曲 线 ， 缓慢 、 快 
速 、 缓 慢 变 低 、 高 、 低 。 在 S 形 曲线 加 入 一 连 串 向 上 和 向 下 交错 的 曲 
线 ， 你 会 得 到 接近 正弦 波 的 曲线 。 实 际 上 ， 每 个 男 数 都 可 以 近似 看 作 S 
形 曲线 的 总 和 : 画 数 上 升 时 ， 你 加 一 条 S 形 曲线 ， 画 数 下 降 时 ， 你 减 挥 
一 条 S 形 曲线 。 孩 子 的 学 习 也 不 是 一 直 痢 处 于 进步 状态 ， 这 个 过 程 是 帮 
干 个 $ 形 曲线 的 素 积 。 技 术 变 单 也 是 如 此 。 和 斜 眼看 纽约 的 天 空 ， 你 会 看 
到 一 组 S 形 曲线 在 地 平 线 上 逐渐 展开 ， 每 条 曲线 都 和 摩天 大 楼 的 角 一 样 
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对 我 们 来 说 最 重要 的 是 ，S 形 曲线 会 找到 解决 赞 洽 分 布 问题 的 新 方 
法 。 如 果 宇 宙 是 相 变 的 大 集合 体 ， 那 让 我 们 用 一 条 S 形 曲线 来 模仿 这 个 
集合 体 。 这 束 古 大 脑 要 做 的 事 : 将 里 面 的 相 变 系统 调整 到 外 面 。 那 么 
让 我 们 用 S 形 曲线 来 代 蕉 感知 絮 的 阶 路 函数 ， 然 后 看 看 会 发 生 什么 。 


攀登 超 空间 里 的 高 峰 


在 感知 如 算法 中 ， 谍 有 差 信号 要 么 古 全 有 ， 要 么 是 全 无 :你 不 是 收 
到 对 的 信号 ， 束 古 收 到 错 的 信号 。 继 续 下 去 不 会 有 很 大 的 意义 ， 尤 其 
是 当 你 有 众多 神经 元 网 络 时 。 你 可 能 会 知道 ， 输 出 神经 元 出 错 了 (“ 哎 
呀 ， 那 不 是 你 的 祖母 ”") ,但 如 果 是 大 脑 深 处 的 某 个 神经 元 会 怎么 样 
呢 ? 这 样 的 神经 元 都会 出 错 ， 那 意味 着 什么 呢 ? 如 末 神 经 元 的 输出 信 
恩 古 持续 的 ， 而 不 是 二 进 制 的 ， 画 面 束 会 改变 。 首 和 完 ， 我 们 现在 知道 
输出 神经 元 犯 的 错误 有 多 严重 : 它 和 理想 输出 信息 之 间 的 区 别 。 如 果 


神经 元 应 该 不 停 地 放电 〈“ 啊 ， 您 好 ， 祖 母 ") ， 但 它 只 放 了 一 点 电 ， 
那 束 比 什 么 电 也 不 放 要 好 。 更 重要 的 是 ， 我 们 现在 可 以 将 该 误差 传播 
到 隐藏 神经 中 : 如 果 输 出 神经 元 应 该 放 更 多 的 电 ， 而 A 神 经 元 与 其 相 
连 ， 那 么 A 放 的 电 越 多 ， 我 们 就 越 应 该 加 强 它 们 的 连接 ; 但 是 如 果 A 神 
经 元 受到 神经 元 B 的 抑制 ， 那 么 B 神 经 元 就 应 该 少 放 电 ， 以 此 类 推 。 根 
据 与 其 连接 的 所 有 神经 元 的 反馈 看 ， 每 个 神经 元 会 决定 该 多 放 或 者 少 
放 多 少 电 。 根 据 这 一 点 以 及 输入 神经 的 活动 ， 它 会 加 强 或 者 减弱 它 与 
它们 的 联系 。 我 得 放 更 多 的 电 ， 但 是 B 神 经 元 在 阻止 我 ? 把 它 的 权 值 
降低 。C 神 经 元 不 断 放 电 ， 但 它 和 我 的 连接 很 弱 ? 那 束 加 强 连 接 。 我 
的 “消费 者 ”神经 元 位 于 网 络 的 下 游 ， 会 告诉 我 下 一 轮 我 的 表现 如 何 。 


无 论 什么 时 候 学 习 算法 的 “视网膜 ”看 到 一 张 新 的 图 片 ， 这 个 信和 号 
器 会 在 网 络 中 传播 ， 知 道 它 产生 输出 信息 。 将 这 条 输出 信息 和 理想 的 
输出 信息 相 比 ， 会 发 出 错误 信号 ， 这 个 信号 会 罕 过 神经 元 层 ， 然 后 反 
癌 传播 回去 ， 直 到 它 到 达 视 网 膜 。 根 据 返 回来 的 信号 以 及 在 前 进 过 程 
中 它 接收 到 的 输入 信息 ， 每 个 神经 元 会 调整 各 目的 权 值 。 随 着 网 络 看 
到 越 来 越 多 你 祖母 和 其 他 人 的 照片 ， 权 值 会 逐渐 收敛 到 能 够 让 它 区 分 
两 者 的 值 中 。 反 加 传播 ， 正 如 这 个 算法 为 人 们 所 知 的 一 样 ， 比 感知 天 
算法 要 强大 很 多 。 单 个 神经 元 只 能 够 对 直线 进行 学 习 。 给 定 足 够 的 隐 
藏 促 经 ， 一 台 多 层 感 知 右 ， 正 如 它 的 名 字 一 样 ， 可 以 代表 任意 的 复杂 
边界 。 这 使 得 反 向 传播 成 为 联结 学 派 的 主 算法 。 


有 反问 传播 是 目 然 及 技术 领域 中 非常 常见 的 战略 实例 ， 如 采 你 着急 
疏 到 山顶 ， 那 你 区 得 爬 能 找到 的 最 陡 的 坡 。 这 在 技术 上 的 术语 为 " 樟 度 
上 升 ”《 如 果 你 想 爬 到 山顶 ) 或 者 梯度 下 降 《如 果 你 想 走 到 山谷 ) 。 细 
菌 就 是 通过 游 向 食物 (例如 葡萄 糖分 子 浓度 高 的 地 方 来 更 食 的 ， 通 
到 有 毒物 质 ， 它 们 则 会 游 癌 有 毒物 质 浓度 低 的 地 方 。 所 有 事物 ， 从 机 
翼 到 天 线 阵 ， 都 可 以 通过 梯度 上 升 来 优化 。 反 辐 传 播 殉 是 在 多 层 感 知 
器 中 有 效 做 到 这 一 点 的 方法 : 不 断 对 权 值 进行 微调 ， 以 降低 误差 ， 然 
后 当 所 有 调整 失败 时 ， 停 止 调整 。 有 了 反 回 传播 ， 你 束 不 必 从 头 开始 


弄 明 日 怎样 对 每 个 神经 元 的 权 值 进行 微调 ， 这 样 做 起 来 会 很 慢 。 你 可 
以 一 层 一 层 来 做 ， 根 据 调整 与 其 相连 神经 元 的 方法 ， 来 调整 每 个 神经 
元 。 如 果 在 突 发 事件 中 ， 除 了 一 件 工 具 ， 你 得 把 整个 机 器 学 习 工 具 包 
都 扔 控 ， 那 么 梯度 下 降 可 能 是 你 想 留 下 的 工具 。 


那么 反问 传播 解决 机 器 学 习 的 问题 了 吗 ? 我 们 能 否 把 一 大 堆 神 经 
元 扔 到 一 起 ， 让 它们 目 己 发 挥 魔力 ， 然 后 在 去 银行 的 路 上 ， 顺 便 领 了 
诺 贝 尔 奖 ， 奖 励 你 弄 明日 大 脑 如 何 运转 ? 唤 ， 人 生 不 会 那么 俏 单 。 假 
设 你 的 网 络 只 有 一 个 权 值 ， 而 图 4-5 中 的 误差 就 是 权 值 的 一 个 函数 。 
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图 4-5 


最 优 权 值 是 2.0， 这 时 的 误差 值 最 低 。 如 果 网 络 以 权 值 0.75 作 为 开 
始 ， 例 如 ， 反 回 传 播 会 在 儿 个 步骤 之 后 达到 最 佳 效 末 ， 束 像 球 滚 下 赵 
一 样 。 但 如 果 它 以 权 值 5.5 作 为 开头 ， 反 问 传 播 会 下 渭 至 7.0， 而 且 会 停 
在 那里 。 反 辣 传播 ， 随 着 渐 进 权 值 的 变化 ， 不 知道 该 如 何 找到 全 局 误 
差 最 小 值 ， 而 局 部 误差 值 可 能 会 很 精 料 ， 谍 像 把 你 的 依 母 错 认 成 帽子 
那样 。 有 了 一 个 权 值 ， 你 可 以 以 0.01 的 增 量 来 尝试 每 个 可 能 的 值 ， 然 
后 用 那 种 方法 找到 最 佳 效果 。 但 如 果 你 有 数 千 个 权 值 ( 数 百 万 或 者 数 
十 亿 个 就 更 不 用 说 了 ) ， 就 不 该 选 这 种 方法 ， 因 为 网 格 线 上 的 点 会 随 


着 权 值 数量 的 增长 呈 指 数 级 上 涨 。 全 局 最 低 值 隐藏 在 浩瀚 的 超 空间 的 
某 个 角落 里 ， 找 到 它 束 走运 了 。 


想象 一 下 你 被 绑 采 了 ， 然 后 在 喜马拉雅 山脉 的 某 个 地 方 被 索 住 眼 
青 。 你 感到 头痛 ， 也 不 记得 什么 了 。 你 知道 的 一 切 就 古 你 得 仆 到 球 称 
朗 玛 峰 峰 项。 你 会 做 什么 ? 你 同 前 走 了 几 步 ， 郑 点 滑 到 山沟 里 。 你 跨 
了 几 口 气 之 后 ， 决 定 要 更 有 计划 地 行动 。 你 用 脚 仔细 感觉 了 周围 的 地 
形 ， 直 到 找到 最 高 的 点 ， 然 后 小 心 履 可 走 回 那 氮 。 然 后 你 重复 同样 的 
动作 。 一 步 一 步 ， 你 走 得 越 来 越 高 。 这 束 是 梯度 上 升 。 如 末 这 个 山脉 
刚好 束 是 珠穆朗玛 峰 ， 而 珠穆朗玛 峰 是 一 个 标准 的 圆锥 ， 那 它 束 很 有 
吸引 力 了 。 但 更 有 可 能 的 是 ， 当 你 到 达 一 个 地 方 ， 那 里 每 走 一 步 都 是 
往 下 时 ， 那 么 你 距离 峰 顶 还 很 还 。 这 时 你 只 十 站 在 山脚 的 某 个 地 方 ， 
而 且 你 被 困 住 了 。 这 束 古 反问 传播 过 到 的 事情 ， 除 非 它 在 超 空间 而 不 
是 3D 空 间 中 攀登 高 峰 。 如 果 你 的 网 络 有 单个 神经 元 ， 只 要 一 步 一 步 扑 
癌 更 好 的 权 值 ， 你 束 可 以 到 达 峰 顶 。 但 在 多 层 感 知 右 中 ， 山 路 会 很 崎 
蚁 ， 找 到 最 高 的 山峰 已 算 走 运 。 


这 也 是 明 斯 基 、 派 普 特 和 其 他 人 无 法 找到 学 习 多 层 感 知 器 的 部 分 
原因 。 他 们 可 能 想象 到 用 S$ 形 曲线 来 代 蔡 阶 路 函数 ， 然 后 进行 梯度 下 
降 ， 不 过 他 们 会 遇 到 误差 的 局 部 最 小 值 这 个 问题 。 在 那个 年 代 ， 人 研究 
者 们 不 相信 计算 机 模拟 ， 他 们 需要 数学 来 证 明 算 法 可 以 起 作用 ， 而 反 
回 传 播 却 没有 这 样 的 证 据 。 但 我 们 最 好 意识 到 的 是 ， 多 数 情况 下 局 部 
最 小 值 挺 好 的 ， 不 会 有 不 恨 影 响 。 误 莹 表面 看 起 来 往往 像 桶 猪 的 刚 
毛 ， 有 很 多 高 峰 和 低谷 ， 但 如 果 我 们 找到 绝对 最 低 的 点 之 后 ， 这 真 的 
不 重要 了 ， 并 且 任 何人 都 有 可 能 找到 。 更 好 的 消 轧 是 ， 实 际 上 ， 局 部 
最 小 值 可 能 更 适合 ， 因 为 它 和 全 局 最 小 值 比 ， 不 太 可 能 证 明 对 我 们 的 
数据 过 拟 合 。 


超 空 间 古 一 把 双 刃 剑 : 一 方面 ， 至 间 的 维度 越 高 ， 它 越 有 可 能 存 
在 高 度 复杂 的 表面 和 局 部 最 优 解 ， 另 一 方面 ， 被 困 在 局 部 最 优 解 中 ， 


意味 着 被 困 在 每 个 维度 中 ， 所 以 被 困 在 多 维 中 的 难度 会 比 被 困 在 三 维 
中 的 难度 大 。 在 超 空 间 中 ， 到 处 都 有 罕 山 而 过 的 通道 。 那 么 ,借助 夏 
尔 巴 人 的 小 小 帮助 ， 反 向 传播 往往 会 找到 通 往 完美 权 值 的 道路 。 它 可 
能 仅仅 是 香格里拉 的 神秘 山谷 ， 而 不 是 海洋 ， 但 如 采 在 超 空 间 中 ， 有 
数 百 万 个 这 样 的 山谷 ， 每 个 山谷 都 有 数 十 亿 的 山口 对 着 它 ， 那 为 什么 
要 抱怨 呢 ? 


然而 要 当心 ， 不 要 过 于 重视 反 回 传播 找到 权 值 的 意义 。 记 住 ， 可 
能 会 有 许多 不 同 的 优 民权 值 。 多 层 感官 右 中 的 学 习 活 动 是 一 个 混乱 的 
过 程 ， 其 意义 在 于 从 稍 有 不 同 的 地 方 开 始 ， 殊 会 让 你 结束 时 的 解决 方 
法 杀 然 不 同 。 现 象 本 和 映 并 无 区 别 ， 无 论 这 轻微 的 差别 古 存 在 于 最 初 权 
值 中 ， 还 十 存在 于 训练 数据 中 ， 而 且 是 否 会 在 所 有 强大 的 学 习 算 法 
(不 只 是 反 疝 传播 ) 中 表现 出 来 。 


我 们 可 以 去 掉 S 形 曲线 来 解决 局 部 最 优 问题 ， 然 后 只 让 每 个 神经 元 
输出 其 输入 量 的 加 权 和 “。 这 样 做 会 使 误 兰 变 得 非常 平缓 ， 只 剩 下 一 个 
最 小 值 一 一 全 局 最 小 值 。 虽 然 如 此 ， 问 题 是 线性 函数 的 一 个 线性 函数 
也 只 是 一 个 线性 函数 ， 那 么 线性 神经 元 的 一 个 网 络 与 单个 神经 元 几乎 
= 尾 。 二 个 线性 大 脑 无 论 多 太 ， 总 比 二 亲 线 虫 要 二。S 形 曲线 古 线 性 
函数 非 智能 性 和 阶 跃 函数 难 解 性 的 完美 中 转 站 。 


感知 器 的 复仇 


反 回 传播 于 1986 年 是 由 加 州 大 学 圣 欠 戈 分 校 的 心理 学 家 大 卫 , 鲁 梅 
尔 哈 特 在 杰 夫 :对 顿 以 及 罗 纳 德 ' 威 廉 斯 的 协助 下 发 明 出 来 的 。 他 们 表明 
肥 疝 传播 还 可 以 学 习 XOR， 这 让 联结 学 派对 明 斯 基 和 派 普 特 哄 之 以 
蜡 。 回 顾 之 前 耐 殉 的 例子 : 年 轻 男 性 和 中 年 妇女 最 有 可 能 购买 耐 殉 
鞋 。 其 中 ， 我 们 可 以 用 三 个 神经 元 的 网 络 来 代表 : 第 一 个 神经 元 看 到 
年 轻 男 性 时 会 放电 ; 第 二 个 神经 元 在 看 到 中 年 女性 时 会 放电 ; 第 三 个 


神经 元 看 到 其 中 一 个 时 会 放电 。 通 过 反 回 传播 ， 我 们 可 以 掌握 适当 权 
值 ， 最 后 成 功 完成 耐 元 的 前 景 预测 ( 马 文 ， 事情 就 是 这 样 ， 没 什么 可 
说 的 ) 。 


早期 在 证 明 反 癌 传 播 力量 的 时 候 ， 特 里 . 索 庄 斯 基 和 查尔斯 : 罗 和 森 伯 
格 训练 了 一 台 多 层 感知 器 ， 让 其 大 声 衣 读 。 他 们 的 网 络 聊 天 系统 浏览 
文本 ， 根 据 背 景 选择 准确 的 音素 ， 然 后 加 入 语音 合成 侨 。 他 们 的 网 络 
聊天 不 仪 适用 于 新 词 一 一 这 古 基 于 知识 的 系统 无 法 做 到 的 一 一 网 络 聊 
天 系统 还 可 以 说 话 ， 而 且说 得 和 人 类 极为 相似 。 索 诡 斯 基 过 去 经 党 在 
研究 会 议 上 通过 播放 网 络 聊天 进展 的 磁带 来 对 观众 进行 催眠 ， 一 开始 
征 牙 牙 学 语 ， 然 后 开始 能 让 人 们 听 懂 ， 最 后 说 得 很 流利 ， 只 是 偶尔 会 
犯错 。 


神经 网 络 第 一 次 取得 大 的 成 功 是 准确 预测 股票 市 场 。 因 为 神经 网 
络 可 以 在 噪声 很 大 的 数据 中 探测 到 微小 非 线性 ， 它 们 打败 线性 模型 ， 
并 在 金融 领域 流行 起 来 ， 它 们 的 应 用 也 变 得 更 广泛 。 典 型 的 投资 基金 
会 为 每 大 批 股票 训练 出 一 个 分 离 的 网 络 ， 让 神经 网 络 挑 出 最 有 布 望 的 
选项 ， 然 后 让 人 类 分 析 师 来 决定 该 投资 哪些 股票 。 然 而 ， 有 几 只 基金 
顺利 通过 挑选 ， 学 习 算 法 会 目 行头 卖 这 些 基 金 。 这 些 过 程 到 故 如 何 进 
行 的 仍 古 个 秘密 ， 但 机 器 学 习 算 法 一 直 处 于 不 为 人 所 知 的 状态 ， 然 后 
以 惊人 的 速度 进入 对 冲 基金 ， 这 也 许 并 非 偶 然 。 


非 线 性 模型 不 仅 在 股票 市 场 有 重要 作用 ， 在 其 他 很 多 领域 中 也 是 
如 此 。 科 学 家 们 到 处 使 用 线性 回归 ， 因 为 那 葡 是 他 们 知道 的 东西 ， 但 
征 通 间 他们 研究 的 现象 又 都 是 非 线性 的 ， 一 人 台 多 层 感 知 禹 吏 可 以 模拟 
这 些 现象 。 线 性 模型 对 相 变 不 了 解 ， 神 经 网 络 像 海 绢 一 样 把 它们 吸收 
了 。 


网 络 神经 早期 的 另外 一 个 成 功 之 处 在 于 掌握 区 车 技能 。 无 人 光驱 
汽车 在 2004 一 2005 年 的 DARPA 大 挑战 中 才 进 入 公众 视野 ， 但 早 在 10 年 
前 ， 卡 内 基 - 梅 隆 大 学 的 研究 员 就 已 经 成 功 训 | 练 出 一 台 多 层 感知 器 来 萄 


驶 汽车 ， 方 法 就 古 探测 视频 图 像 中 的 路 面 ， 然 后 适当 转动 方 同 副 。 卡 
内 基 - 梅 隆 大 学 的 无 人 要 驶 汽车 可 以 沿 着 海岸 跨越 美国 ， 而 其 视力 却 非 
常 模糊 (30x30 像 素 ) ， 其 大 脑 比 虫子 的 大 脑 还 要 小 ， 但 仅仅 通过 人 
类 副 罗 驶 员 的 几 次 协助 就 完成 了 此 次 任务 《该 计划 被 称 为 “ 横 罕 美国 的 
实验 ”) 。 这 可 能 不 是 第 一 辆 真正 意义 上 的 无 人 区 驶 汽车 ， 但 和 一 些 未 
成 年 司机 相 比 ， 它 更 靠 谱 。 


如 今 反 向 传播 的 应 用 太 多 了 ， 数 不 过 来 。 随 着 它 为 越 来 越 多 的 人 
知道 ， 关 于 它 的 更 多 历史 也 被 挖 抉 出 来 。 原 来 ， 有 反问 传播 不 止 一 次 被 
创造 出 来 ， 在 科学 领域 这 是 党 有 的 事 。 来 自 法 国 的 伊 恩 - 勒 坤 (Yann 
LeCun) 和 其 他 人 偶然 发 现 了 它 ， 和 和 鲁 梅 尔 哈 特 发 现 的 时 间 差 不 多 。 
20 世 纪 80 年 代 ， 有 一 篇 关于 反 回 传播 的 论文 被 领 抑 人 工 智能 会 议和 否定 
了 ， 因 为 根据 评论 者 的 观点 ， 明 斯 基 和 派 普 特 已 经 证 实感 知 右 无 法 起 
作用 。 实 际 上 ， 重 梅 尔 哈 特 已 经 通过 哥伦布 测试 获得 反 回 传播 发 明 者 
的 采 誉 : 哥伦布 不 是 第 一 个 发 现 美洲 大 陆 的 人 ， 但 他 却 是 最 后 一 个 。 
原来 ， 了 哈佛 大 学 研究 生 保 罗 : 韦 伯 斯 已 经 在 1974 年 的 博士 论文 中 提出 类 
似 的 算法 。 非 常 讽刺 的 是 ， 亚 瑟 - 布 莱 森 和 何 毓 琦 (两 位 控制 理论 家 ) 
早 就 已 经 做 了 同样 的 事情 (1969 年 明 斯 基 和 派 普 特 出 版 《感知 妖 》 的 
同一 年 ) 。 的 确 ， 机 器 学 习 本 身 的 历史 表明 我 们 为 什么 需要 学 习 算 
法 。 如 有 果 能 目 行 在 科学 文献 中 找到 相关 论文 的 算法 在 1969 年 已 经 出 
现 ， 它 们 就 可 以 避免 几 十 年 时 间 的 浪费 ， 并 加 快 传播 “ 谁 知道 有 什么 发 
现 ” 这 样 的 信息 。 


在 感知 器 历史 众多 有 讽刺 意味 的 事件 中 ， 也 许 最 让 人 斐 伤 的 一 件 
事 束 是 ， 弗 兰 克 - 罗 森 布 拉 特 于 1969 年 在 切 院 皮 克 湾 的 一 起 轮船 事故 中 
离世 ， 没 有 活着 看 到 他 创造 的 东西 得 到 进一步 应 用 。 


一 个 完整 的 细胞 模型 


活 细 胞 束 古 非 线 性 系统 的 典型 例子 。 细 胞 发 挥 其 所 有 功能 的 方 
式 ， 束 是 通过 化 学 反应 的 复 洒 网 络 ， 将 原材料 转化 为 最 终 产 物 。 我 们 
利用 符号 学 派 的 方法 ， 比 如 逆 回 演绎 ， 可 以 找到 这 个 网 络 的 结构 ， 正 
如 我 们 在 第 四 章 看 到 的 那样 。 但 是 为 了 构建 一 个 完整 的 细胞 模型 ， 我 
们 需要 得 到 定量 因素 ， 掌 握 结 合 了 不 同 基因 表达 水 平 的 参数 ， 还 需要 
将 环境 变量 与 内 部 变量 结合 起 来 .……. 做 到 这 些 很 难 ， 因 为 这 些 数量 之 
间 并 没有 简单 的 线性 关系 。 细 胞 通过 对 反馈 回路 进行 互 锁 来 维持 稳 
定 ， 这 会 引起 非常 复杂 的 活动 。 反 回 传 播 很 适合 解决 这 个 问题 ， 因 为 
它 能 够 有 效 掌 握 非 线性 函数 。 如 采 我 们 有 完整 的 细胞 代谢 路 径 图 ， 以 
及 对 所 有 相关 变量 足够 的 观察 ， 原 则 上 ， 反 回 传 播 可 以 掌握 细胞 的 详 
细 模 型 ， 利 用 多 层 感 官 絮 根据 直接 起 因 预 测 每 个 变量 。 


然而 ， 对 于 可 预见 的 未 来 ， 我 们 仅仅 掌握 细胞 代谢 网 络 的 部 分 知 
识 ， 也 只 掌握 了 我 们 想 掌握 的 一 部 分 变量 。 面 对 信息 缺失 以 及 所 有 可 
用 信息 不 可 避免 的 了 矛盾， 要 掌握 有 用 的 模型 就 需要 利用 贝 叶 斯 方法 ， 
在 第 六 革 我 们 会 深入 人 研究 这 个 问题 。 对 特殊 患者 进行 预测 也 是 同样 的 
道理 ， 掌 握 模 型 : 可 利用 的 证 据 必 然 会 杂乱 和 不 完整 ， 但 贝 叶 斯 推理 
会 充分 利用 它 。 它 起 到 作用 了 ， 如 果 把 治愈 癌症 作为 目标 ， 我 们 不 必 
知道 瘤 细 胞 运转 的 所 有 细 市 ， 只 需要 知道 如 何在 不 损害 正常 细胞 的 情 
况 下 ， 使 癌 细 胞 失去 尝 获 能力， 这 束 足 够 了 。 在 第 六 草 中 ， 我 们 也 会 
看 到 如 何 避 开 我 们 不 知道 也 不 必 知 道 的 事 ， 使 学 习 面 癌 目 标 。 


更 直接 的 是 ， 我 们 可 以 利用 逆 问 演绎 从 数据 及 之 前 的 知识 中 推导 
出 细胞 网 络 的 结构 ， 但 应 用 它 的 方法 可 以 呈现 出 组 合 爆炸 式 增长 ， 我 
们 需要 的 是 一 个 策略 。 既 然 代 谢 网 络 由 进化 来 决定 ， 也 许 在 我 们 的 学 
习 算 法 中 对 其 进行 刺激 才 是 可 行 办 法 。 在 第 五 章 中 ， 我 们 会 看 到 如 何 
做 到 这 一 点 。 


大 脑 的 更 深 处 


在 反 回 传播 初次 进入 公众 视线 时 ， 联 结 学 派 幻想 能 够 快速 掌握 越 
来 越 大 规模 的 网 络 ， 直 到 硬件 允许 的 条 件 下 ， 这 些 网 络 等 同 于 人 工大 
脑 。 结 果 却 并 非 如 此 。 掌 握 拥有 一 个 隐 含 层 的 网 络 没 问题 ， 但 在 那 之 
后 ， 很 快 事情 就 会 变 得 很 困难 。 几 层 的 网 络 ， 只 有 为 了 应 用 (比如 文 
字 识 别 ， 而 经 过 精心 设计 的 才能 起 作用 。 超 出 这 个 范围 ， 反 向 传播 就 
会 瘫痪 。 随 大 我 们 增加 越 来 越 多 的 层 数 ， 误 差 信 号 会 变 得 越 来 越 获 
漫 ， 驳 像 河 流 分 成 越 来 越 小 的 文 流 ， 直 到 我 们 只 剩 下 雨滴 ， 不 留 凑 
迹 。 利 用 几 十 或 数 百 个 隐藏 层 来 进行 学 习 ， 号 像 大 脑 一 样 ， 过 去 是 一 
个 遥远 的 梦 ， 而 到 了 20 世 纪 90 年 代 中 期 ， 对 多 层 感知 右 的 热情 已 经 未 
渐 消 减 。 联 结 学 派 的 中 坚 分 子 仍 在 坚持 ， 但 总 的 来 襄 ， 人 们 对 机 妖 学 
习 领 域 的 关注 度 已 经 转移 到 别 的 领域 (在 第 六 章 和 第 七 革 中 我 们 会 探 
索 这 些 领 域 ) 。 


然而 ， 如 今 联结 学 派 又 复活 了 。 我 们 比 现在 掌握 了 更 深层 的 网 
络 ， 而 且 这 些 网 络 在 视觉 、 语 音 识 别 、 药 物 人 研制 和 其 他 领域 都 在 设 定 
新 标准 。 这 个 领域 狐 的 深入 学 习 成 果 倍 刊登 在 《纽约 时 报 》 的 头 版 
上 。 往 发 动机 盖 下 面 看 .….. 惊 言 : 是 值得 信赖 的 老式 反 疝 传播 发 动 
机 ， 还 在 喻 喻 作 啊 。 什 么 发 生 改变 了 ? 评论 家 说 ， 没 什么 大 的 改变 : 
只 年 计 算 机 变 得 更 快 了 ， 数 据 变 得 更 大 了 “。 邓 顿 和 其 他 人 答 道 : 确 
实 ， 我 们 一 直 都 没 错 ! 


实际 上 ， 联 结 学 派 有 实质 性 的 进步 。 如 果 联 结 学 派 古 过 山 车 ， 那 
么 对 于 最 近 的 过 山 车 转弯 ， 页 献 者 之 一 的 束 是 一 个 看 上 去 普通 的 小 设 
备 ， 称 为 “ 目 动 编码 器”。 目 动 编码 紫 束 是 一 台 多 层 感知 占 ， 其 输出 量 
和 输入 量 一 样 。 输 入 一 张 你 祖母 的 照片 ， 然 后 输出 的 还 是 你 祖母 的 昭 
片 。 起 初 ， 这 驶 像 一 个 思春 的 想法 : 这 样 一 个 奇异 的 装置 可 能 有 什么 
用 ? 答案 殉 是 ， 让 隐藏 层 比 输入 和 输出 层 小 很 多 ， 那 么 网 络 就 不 会 只 
把 输入 信息 复制 到 隐藏 层 ， 然 后 再 从 隐藏 层 复制 到 输出 信息 那里 ， 在 
这 种 情况 下 ， 我 们 可 能 也 会 把 所 有 东西 都 扔 出 去 。 但 如 有 果 隐 藏 层 变 小 
了 ， 束 会 发 生 有 趣 的 事情 : 网 络 会 被 迫 将 输入 信息 编码 在 更 少 的 比特 


里 ， 那 样 在 隐藏 层 丈 可 以 表示 出 来 了 ， 然 后 网 络 会 解压 那些 信息 ， 还 
原 到 原来 的 大 小 。 例 如 ， 它 可 以 对 你 祖母 百 万 像素 的 照 厂 进 行 编码 ， 
变 成 仅仅 7 个 字母 的 单词 “grandma”， 或 者 它 目 己 创造 出 来 的 更 短 代 
码 ， 同 时 学 习 将 “grandma” 解 码 成 一 个 老奶奶 的 照片。 因此 ， 一 人 台 自 动 
编码 器 就 像 一 个 文件 压缩 工具 ， 它 有 两 个 重要 的 优点 : 知道 如 何 目 行 
压缩 东西 ， 和 和 霍 普 菲尔德 网 络 一 样 ， 可 以 把 一 张 杂 乱 、 扭 曲 的 图 片 变 
得 干净 清晰 。 


目 动 编码 器 于 20 世 纪 80 年 代为 人 所 知 ， 虽 然 有 一 个 单个 隐藏 层 ， 
但 它 很 难 学 习 。 要 和 弄 明 日 怎样 把 众多 信息 打包 压缩 至 儿 个 相同 比特 大 
小 ， 是 非常 难 的 问题 “一 个 代码 是 你 的 祖母 ， 另 一 个 稍 有 不 同 的 代码 
是 你 的 祖父 ， 再 一 个 是 詹妮弗 -安妮 斯 顿 ， 等 等 。 超 空间 里 的 地 形 实 
在 是 太 师 嵌 ， 让 人 无 法 到 达 峰 顶 ， 隐 藏 的 单位 要 掌握 输入 量 的 过 多 
XOR 相 当 于 什么 。 因 此 目 动 编码 右 并 没有 真正 跟 上 步伐 。 伦 了 十 余年 
来 寻找 的 读 吕 ， 就 是 让 隐藏 层 比 输入 和 输出 层 大 一 些 。 啊 ? 实际 上 ， 
这 只 是 一 半 的 读 守 ， 男 一 半 就 是 ， 在 任何 特定 时 间 ， 只 把 几 个 隐藏 的 
单位 赶 走 。 这 样 做 仍然 会 阻止 隐藏 层 对 输入 层 进 行 复制 ， 而 且 关 键 
征 ， 这 样 做 把 学 习 变 得 更 简单 了 。 如 采 我 们 允许 用 不 同比 特 来 代表 不 
同 输入 层 ， 那 么 输入 层 束 不 再 需要 争 相 设置 相同 的 比特 。 同 样 ， 网 络 
现在 有 比 之 前 多 很 多 的 参数 ， 那 么 你 所 处 的 超 空 间 会 有 更 多 的 维度 ， 
而 你 也 有 更 多 的 方法 来 逃 出 局 部 最 大 值 的 困境 。 这 整 叫 作 稿 琉 目 动 编 
码 器 ， 而 它 古 一 个 记 守 。 


虽然 如 此 ， 我 们 还 没有 看 到 任何 深入 的 学 习 行 为 。 下 一 个 聪明 的 
主意 束 是 把 稀 芷 目 动 编码 人 右 逐 个 堆积 起 来 ， 束 像 一 个 多 层 三 明治 那 
样 。 第 一 个 目 动 编码 卓 的 隐藏 层 变 成 第 二 个 的 输入 或 输出 层 ， 依 此 类 
推 。 因 为 神经 元 征 非 线 性 的 ， 每 个 隐藏 层 会 掌握 输入 层 更 为 复杂 的 表 
达 方 式 ， 在 前 一 个 隐藏 层 的 基础 上 进行 构建 。 给 定 大 批 的 面部 图 片 ， 
第 一 个 目 动 编码 亏 会 对 局 部 特征 ， 如 术 角 和 斑点 进行 编码 ;第 二 个 目 
动 编码 万 利用 这 些 信息 来 对 诸如 蜡 尖 、 眼 睛 的 虹膜 这 些 面 部 特征 进行 


编码 ;第 三 个 掌握 整个 异 子 和 眼睛 的 面部 特征 等 。 最 终 ， 最 顶端 的 一 
层 可 以 古 一 台 传 统 的 感知 器 ， 会 通过 下 一 层 编 码 紫 提供 的 上 层 特征 来 
识别 你 的 祖母 ， 这 和 只 利用 单个 隐藏 发 提供 的 粗糙 信息 ， 以 及 对 所 有 
层 进行 反 向 传播 相 比 ， 要 简单 得 多 。 登 上 《纽约 时 报 》 的 谷歌 大 脑 网 
络 是 一 个 由 目 动 编码 右 和 其 他 材料 组 成 的 9 层 三 明治 ， 能 够 从 视频 网 站 
YouTube 的 视频 中 识别 出 猫 。 它 包含 数 十 亿 个 连 授 ， 是 当时 能 够 进行 
学 习 的 最 大 网 络 。 不 足 为 奇 的 是 ， 吴 恩 达 (该 项 目的 主要 人 负责 人 之 
一 ) 也 是 支持 “人 类 智能 可 以 归结 为 单个 算法 ”这 个 思想 的 主要 人 物 。 
吴 央 达 平 易 近 人 上 且 很 有 志向 ， 认 为 登 加 在 一 起 的 稀 疏 目 动 编码 器 能 够 
帮助 我 们 更 好 地 解决 人 工 智能 问题 ， 比 之 前 的 任何 方法 都 行 得 通 。 


登 加 目 动 编码 器 不 是 唯一 的 深度 学 习 算 法 ， 男 外 一 种 以 玻 尔 效 曼 
机 器 作为 基础 ， 还 有 一 种 一 一 卷 积 神经 网 络 ， 则 把 视 皮 质 模 型 作为 基 
础 。 尽 管 取得 了 很 大 的 成 功 ， 然 而 这 些 成 果 仍 与 大 脑 相 去 甚 远 。 合 歌 
网 络 可 以 识别 出 猫 脸 的 正面 ， 人 类 可 以 认 出 各 种 姿势 的 猫 ， 甚 至 在 很 
难 辨认 脸 部 时 也 能 认 出 。 合 歌 网 络 仍 非常 肤浅 ， 它 9 层 里 面 只 有 3 层 是 
目 动 编码 器 。 多 层 感知 器 古 小 脑 还 算 不 错 的 模型 ， 大 脑 的 这 部 分 负 呐 
低 水 平 运 动 控制 ， 但 皮质 殊 不 一 样 了 。 它 缺失 用 于 传播 误差 的 逆向 连 
接 ， 但 它 是 学 习 这 个 魔法 的 真正 所 在 。 太 夫 . 霍 金 斯 在 《人 工 智能 》 一 
书 中 ， 提 倡 紧 紧 地 把 皮质 组 织 形式 作为 基础 ， 进 行 算法 设计 ， 但 到 目 
前 为 止 ， 没有 一 个 算法 能 够 与 今天 的 深度 网 络 相 比 。 


随 看 我 们 对 大 脑 理解 的 深入 ， 这 种 情况 可 能 会 改变 。 受 到 人 类 基 
因 组 计划 的 局 示 ， 神 经 连接 组 学 正在 力求 绘制 出 大 脑 中 的 每 个 突 触 。 
欧盟 正在 进行 10 亿 欧元 的 投资 ， 用 于 构建 大 脑 一 应 俱全 的 模型 。 美 国 
的 大 脑 计划 也 有 相似 的 目标 ， 仅 仅 2014 年 的 基金 就 达到 1 亿美 元 。 虽 然 
如 此 ， 符 号 学 派对 这 种 寻找 终极 算法 的 方法 仍 非常 怀疑。 虽然 我 们 可 
以 在 单个 突 触 水 平 上 想象 完整 的 大 脑 ， 但 是 我 们 需要 更 好 的 机 器 学 习 
算法 ， 来 将 那些 想象 的 图 片 变 成 布线 图 ， 仪 仅 用 手 来 完成 是 不 可 能 
的 。 更 糟 糙 的 是 ， 即 使 有 了 大 脑 的 完整 构图 ， 我 们 仍然 不 知道 它 在 干 


什么 。 秀丽 线虫 的 神经 系统 仅仅 由 302 个 神经 元 组 成 ， 而 且 在 1986 年 被 
完整 绘制 出 来 ， 但 天 于 它 干 什么 ， 我 们 也 仅仅 了 解 了 一 部 分 。 我 们 需 
要 更 融 水 平 的 概念 ， 用 来 搞 明 日 抵 层 细 届 这 个 难 题 ， 别 除 那 些 针 对 人 
脑 或 只 针对 进化 怪 辛 的 细 广 。 我 们 不 会 通过 对 羽毛 进行 逆 同 工程 来 制 
造 飞 机 ， 而 飞机 也 不 会 招 怒 膀 。 飞 机 是 在 气体 力学 的 基础 上 设计 的 ， 
所 有 飞行 的 物体 都 必须 遵循 气体 力学 原则 。 我 们 还 是 没有 理解 那些 想 
法 的 类 似 原则 。 


也 许 神 经 连接 组 学 有 点 过 分 了。 联结 学 派 的 一 些 人 高 调 称 ， 反 问 
传播 殉 旦 终极 算法 ， 而 我 们 只 需要 扩大 反 辐 传播 的 规模 。 但 符号 学 派 
对 这 种 想法 不 导 一 顾 ， 他 们 指出 一 长 蚜 人 类 能 做 但 神经 网 络 做 不 了 的 
事情 。 按 照常 识 进行 推理 ， 这 束 涉 及 把 之 前 从 来 没有 被 放 在 一 起 的 信 
思 组 合 在 一 起 。 玛 丽 午 饭 吃 鞋子 吗 ? 不 ， 因 为 玛丽 是 人 ， 人 类 只 吃 能 
号 的 东西 ， 而 鞋子 不 能 吃 。 符 号 系统 做 到 这 些 没有 问题 一 一 它 只 会 把 
相关 规则 串 起 来 ， 但 是 多 层 感 知 顺 却 做 不 到 这 一 点 。 一 旦 完成 学 习 ， 
它 只 会 不 断 计 算 同 一 个 指定 函数 。 神 经 网 络 不 是 组 合 出 来 的 ， 而 语意 
合成 性 是 人 类 认 知 的 一 大 部 分 。 男 外 一 个 大 问题 整 是 人 类 ， 以 及 诸如 
规则 集 和 决策 树 之 类 的 符号 模型 ， 可 以 对 它们 的 推理 进行 解释 ， 而 神 
经 网 络 是 一 大 堆 没 人 能 看 懂 的 数字 。 


但 十 如 采 人 类 具备 所 有 这 些 能 力 ， 大 脑 不 经 过 调整 突 触 束 能 掌握 
这 些 能 力 ， 那 么 这 些 能 力 从 何 而 来 ? 除非 你 相信 魔法 ， 管 案 一 定 是 : 
通过 进化 得 来 。 如果 你 是 联结 学 派 怀疑 论 者 ， 而 且 有 勇气 肯定 目 己 的 
观点 ， 应 该 弄 明 日 进化 如 何 和 掌握 孩子 出 生 葡 知道 的 所 有 东西 一 一 你 越 
觉得 是 天 生 的 ， 要 求 也 束 越 高 。 如 采 你 弄 明 日 了 ， 然 后 对 计算 机 进行 
编程 来 完成 这 个 任务 ， 别 人 否认 你 已 经 发 明了 终极 算法 的 至 少 一 个 版 
本 ， 这 会 显得 十 分 无 礼 。 


第 五 章 
进化 学 派 : 目 然 的 学 习 算 法 


机 器 人 公园 古 一 个 巨大 的 机 妖 人 人 工厂， 被 1 万 平方 英里 的 从 林 、 城 
市 等 包围 着 。 司 觉 那 个 从 林 就 是 人 类 建造 过 的 最 蜗 、 最 厚 的 墙 ， 布 满 
哨所 、 探 照 灯 、 炮 塔 。 这 墙 墙 有 两 个 作用 : 把 入 侵 者 挡 在 外 面 ， 把 公 
园 的 “居民 ” ( 数 百 万 个 为 工厂 生存 而 战 、 对 工厂 进行 管理 的 机 器 人 ) 
保护 在 里 面 。 获 胜 的 机 融 人 能 够 “ 产 卵 "， 它 们 完成 枚 殖 的 方法 吏 是 通 
过 对 体内 的 3D 打 印 机 储 库 进 行 编程 。 慢 慢 地 ， 机 釉 人 变 得 更 智能 、 更 
快速 以 及 更 致命 。 机 器 人 公园 由 美军 运营 ， 其 目标 是 使 终极 战士 进 
化 并 


机 妖 人 公园 现在 还 不 存在 ， 但 有 一 天 它 可 能 忠 会 出 现 。 我 建议 把 
它 作 为 几 年 前 DAPRA (美国 国防 部 先进 计划 研究 局 ， 人 研讨 会 的 一 个 思 
维 实验 ， 而 出 席 该 会 议 的 一 位 军队 高 层 人 士 实事 求 是 地 说 :“ 那 个 想法 
可 行 。” 但 如 果 这 支 军队 为 了 训练 士兵 ， 已经 在 加 州 沙漠 对 阿富汗 村 落 
进行 全 面 模 拟 ， 模 拟 中 还 包括 村 民 ， 而 且 为 了 培养 终极 战士 ， 几 十 亿 
美元 也 只 是 个 小 数目 。 想 到 这 些 ， 他 这 么 碍 快 地 认可 这 个 想法 ， 就 不 
会 觉得 多 么 让 人 吃惊 了 。 


人 们 已 经 开始 同 机 问 人 公园 迈 出 第 一 步 。 在 霍 德 利 普 森 位 于 康 共 
尔 大 学 的 创意 机 天 实验 室 中 ， 和 奇形怪状 的 机 融 人 正在 学 习 爬 行 和 飞 
行 ， 可 能 正巧 它们 在 做 这 些 时 ， 你 也 正 读 到 这 里 。 其 中 一 个 机 如 人 看 
起 来 像 胶 块 垒 成 的 清 行 塔 ， 另 外 一 个 像 冯 了 晴 虹 刻 膀 的 直升机 ， 还 有 
一 个 能 变形 的 万 能 工匠 。 这 些 机 器 人 并 不 是 人 类 工程 师 设 计 出 来 的 ， 
而 是 进化 而 来 的 ， 和 地 球 上 生命 多 样 性 产生 的 过 程 一 样 。 虽 然 机 器 人 
最 初 在 计算 机 的 模拟 中 得 以 进化 ， 一 旦 这 些 机 器 人 的 技术 达到 熟练 水 
平 ， 足 以 在 真实 世界 中 运用 ， 真 实 版 的 机 器 人 整 会 通过 3D 打 印 机 被 制 
造 出 来 。 这 些 机 器 人 还 没有 做 好 掌管 世界 的 准备 ， 但 和 开始 时 的 “原生 
淘 ” 模 拟 物 相 比 ， 它 们 已 经 有 了 很 大 进步 。 


使 这 些 机 器 人 进化 的 算法 ， 是 19 世 纪 由 查尔斯 :达尔文 发 明 的 。 那 

时 他 不 觉得 这 是 一 种 算法 ， 部 分 原因 在 于 当时 仍 缺 少 一 个 关键 的 子 程 

序 。 一 旦 1953 年 詹姆斯 : 沃 森 和 弗朗西斯 : 克 里 克 提供 了 该 子 程序 ， 进 化 

就 会 进入 第 二 个 阶段 : 该 进化 是 在 计算 机 中 而 不 是 在 活体 中 进行 ， 而 

会 比 活体 进化 快 10 亿 倍 。 该 子 程序 的 提倡 者 是 一 位 面色 红润 、 永 远 
面市 微笑 的 中 西部 人 ， 名 叫 约翰 ' 截 兰 德 。 


达尔 文 的 算法 


和 许多 其 他 早期 的 机 器 学 习 人 研究 者 一 样 ， 霍 兰 德 开始 时 人 研究 的 是 
神经 网 络 ， 但 他 的 兴趣 使 情况 发 生 转变 。 在 密 鞭 根 大 学 读 研 究 生 时 ， 
他 阅读 了 罗 纳 德 : 费 雪 (Ronald Fisher) 的 经 典 彰 作 《 自 然 选 择 的 遗传 
理论 》 (The Genet: Cal Theory of Natural Selection) 。 在 该 著作 中 ， 同 
时 作为 现代 统计 学 奠基 人 的 费 雪 ， 提 出 了 关于 进化 的 第 一 套数 学 理 
论 。 昌 然 这 个 理论 很 妙 ， 但 霍 兰 德 认为 它 遗 漏 了 进化 论 的 精华 。 费 雪 
孤 立地 看 得 每 个 基因 ， 但 是 有 机 体 的 适应 度 束 是 它 所 有 函数 的 复 值 范 
数 。 如 采 基 因 都 是 独立 的 ， 它 们 变量 的 相对 频率 会 快速 收敛 至 最 大 适 


应 点 ， 然 后 从 此 保持 均衡 。 但 如 果 基 因 相 互 作用 ， 进 化 (追求 最 大 适 
应 度 ) 就 要 复杂 得 多 。 如 果 有 1000 个 基因 ， 每 个 基因 有 两 个 变量 ， 那 
么 基因 组 束 有 21000 种 可 能 的 状态 ， 宇 宙 中 没有 哪个 星球 可 以 大 到 或 者 
古老 到 能 够 一 一 尝试 这 些 可 能 。 但 是 在 地 球 上 ， 通 过 进化 可 以 得 到 适 
应 力 很 强 的 有 机 体 ， 而 达尔 文 的 目 然 选择 理论 至 少 从 数量 上 解释 了 怎 
样 找 到 这 样 的 有 机 体 。 霍 兰 德 决定 将 其 变 成 一 种 算法 。 


但 他 首先 得 毕业 。 他 谨慎 地 为 其 论文 选择 了 一 个 更 为 保守 的 主题 
一 一 布尔 周期 电路 ，1959 年 他 获得 了 计算 机 科学 领域 的 首 个 博士 学 
位 。 即 便 如 此 ， 他 读 人 博士 期 间 的 导师 亚 登 : 伯 克 斯 激发 了 霍 兰 德 在 进化 
计算 领域 的 兴趣 ， 并 帮助 他 在 密 鞭 根 找到 了 教师 工作 ， 还 让 他 避 开 那 
些 不 把 进化 计算 归 入 计算 机 科学 的 资深 同事 。 伯 克 斯 本 人 思想 很 开 
明 ， 因 为 他 之 前 就 已 经 是 约翰 : 冯 : 诺 依 受 的 亲密 合作 伙伴 。 冯 : 诡 依 曼 
证 明了 上 自我 再 生机 器 的 可 能 性 。 的 确 ， 上 自从 1957 年 冯 : 庄 依 曼 因 为 冶 症 
逝世 后 ， 完 成 这 个 工作 的 重任 束 落 到 了 伯 殉 斯 肩 上 。 在 当时 遗传 学 和 
计算 机 科学 的 原始 水 平 下 ， 冯 : 诺 依 曼 能 够 证 明 这 种 机 器 的 存在 ， 这 已 
经 很 了 不 起 。 但 他 的 机 器 人 乔 能 仅 能 复制 和 目 己 一 模 一 样 的 副本 ， 要 
制造 出 进化 版 的 机 器 人 ， 还 得 由 稚 兰 德 来 完成 。 


随 痢 霍 兰 德 的 创作 渐渐 为 人 所 知 ， 遗 传 算 法 的 关键 输入 就 是 一 个 
适应 度 函 数 。 给 定 一 个 待定 程序 和 某 个 设 定 的 目标 ， 适 应 度 函 数 会 给 
程序 打分 ， 反 映 它 与 目标 的 契合 度 。 在 目 然 选 择 当 中 ， 适 应 度 是 否 能 
这 样 解释 ， 值 得 怀疑 : 虽然 翅膀 对 于 飞行 的 适应 度 很 高 ， 这 个 说 法 很 
直观 ,但 整个 进化 过 程 却 没有 已 知 的 目标 。 即 便 如 此 ， 在 机 器 学 习 
中 ， 掌 握 诸如 适应 度 函 数 这 样 的 事情 还 是 很 容易 的 。 如 末 我 们 需要 一 
个 能 够 诊断 疾病 的 程序 ， 如 果 一 种 算法 能 够 正确 诊断 我 们 数据 库 中 
60% 的 病人 ， 这 样 的 算法 就 比 准 确 率 仅 为 55% 的 算法 要 好 ， 所 以 可 行 
的 适应 度 函 数 能 够 帮助 准确 诊断 。 


束 这 一 点 而 言 ， 遗 传 算法 就 有 点 像 选 择 育种 。 达 尔 文 在 《物种 起 
源 》 开 篇 时 束 谈 到 这 个 问题 ， 层 层 深 入 ， 解 释 较 难 理解 的 目 然 选择 概 
念 。 现 在 我 们 自然 而 然 地 认为 ， 经 过 驯化 的 动 植物 就 是 一 代 一 代 经 过 
选择 和 交配 的 结果 ， 是 最 能 让 我 们 达到 各 种 用 途 的 有 机 体 ， 采 实 最 大 
的 玉米 、 最 甜 的 琳 树 、 毛 最 多 的 痒 、 最 强健 的 马匹 。 遗 传 算法 也 会 做 
同样 的 事情 ， 它 产 出 的 是 程序 而 不 是 活 的 生物 体 ， 而 一 代 对 它 而 言 是 
几 秘 的 计算 机 时 间 ， 而 不 是 生物 的 一 生 。 


适应 度 函 数 将 人 在 这 个 过 程 中 扮演 的 角色 概括 化 了 。 但 和 人 的 角 
色相 比 ， 更 为 微妙 的 部 分 是 目 然 的 角色 。 开 始 ， 有 是 一 群 适应 力 不 那 么 
强 的 个 体 (可 能 是 完全 随机 的 个 体 ) 遗传 算法 得 找 出 变量 ， 然 后 这 些 
变量 依据 适应 度 而 补 选 择 。 目 然 怎样 做 到 这 一 点 ?达尔文 不 知道 。 这 
忠 是 遗传 算法 的 一 部 分 。DNA 依 据 碱 基 对 的 序列 对 有 机 体 进行 编码 ， 
同 理 ， 我 们 也 可 以 依据 一 串 二 进 制 数字 对 程序 进行 编码 。DNA 的 4 个 
基本 组 成 单位 ， 不 是 0 和 1， 而 是 4 个 基本 碱 基 ， 包 括 腺 嗓 哈 、 胸 腺 喀 
喧 、 胞 喀 喧 、 马 嗓 哈 ， 但 这 仅仅 是 表面 上 的 老 异 。 变 量 ， 无 论 在 DNA 
序列 中 ， 还 古 在 位 串 中 ， 都 可 通过 几 种 方法 产生 。 最 简单 的 方法 束 古 
扩 突 变 ， 即 随意 翻转 位 串 中 的 一 个 比特 值 ， 或 者 改变 一 段 DNA 中 的 单 
个 基本 碱 基 。 但 对 霍 兰 德 来 说 ， 遗 传 算法 的 真正 威力 在 于 更 为 复杂 的 
东西; 性 。 


把 外 衣 脱 光 ， 只 剩 下 基本 部 位 〈 请 不 要 笑 出 声 ) ， 有 性 生殖 包括 
在 父亲 和 母亲 的 染色 体 之 间 进 行 材料 交 换 ， 这 个 过 程 称 作 染 色 体 交 
又 。 这 个 过 程 会 产生 两 条 新 的 染色 体 ， 一 条 染色 体 交 叉 点 的 一 边 是 母 
亲 的 染色 体 ， 另 外 一 边 则 是 父亲 的 染色 体 ， 另 外 一 条 则 相反 ( 见 图 5- 
1) 。 


M 母 杀 的 染色 体 下 父亲 的 染色 体 


图 5-1 


遗传 算法 通过 模拟 这 个 过 程 发 挥 作用 。 它 为 每 一 代 中 两 个 适应 力 
最 强 的 个 体 进 行 配 对 ， 通 过 随机 交叉 父母 位 串 中 的 一 总 ， 让 每 对 父母 
生出 两 个 后 代 。 将 点 突变 应 用 到 新 的 位 串 后 ， 算 法 让 这 些 点 突变 在 其 
虚拟 世界 中 释放 。 每 个 点 突变 都 会 反馈 适应 度 得 分 ， 然 后 重复 这 个 过 
程 。 每 一 代 都 会 比 前 一 代 的 适应 度 更 高 ， 当 达到 理想 的 适应 度 或 者 时 
间 用 尽 时 ， 这 个 过 程 瑟 会 结束 。 


例如 ， 假 设 我 们 想 对 一 个 规则 进行 进化 ， 用 于 过 滤 垃 圾 邮件 ， 结 
果 会 怎么 样 ? 如 果 有 1 万 个 不 同 的 词 出 现在 训练 数字 中 ， 每 个 竺 选 规则 
会 用 一 条 由 2 万 个 比特 组 成 的 位 串 来 表示 ， 每 两 个 比特 天 是 一 个 单词 。 
与 单词 “free”( 人 免费 的 ) 相对 应 的 第 一 个 比特 就 是 1， 条 件 是 包 
含 “free” 的 邮件 允许 与 规则 匹配 ， 与 单词 “free” 相 对 应 的 第 一 个 比特 就 
是 0， 条 件 是 包含 “free” 的 邮件 不 允许 与 规则 匹配 。 第 二 个 比特 则 相 
反 : 结果 就 是 1， 条 件 是 不 包含 “free” 的 邮件 允许 与 规则 匹配 ， 否 则 结 
果 束 是 0， 且 不 允许 与 规则 人 匹配。 那么 如 果 两 个 比特 都 是 1， 邮 件 不 管 
是 否 包含 “free” 都 允许 与 规则 匹配 ， 而 且 规 则 实际 上 对 那个 词 不 设 条 
件 。 男 外 ， 如 果 两 个 比特 都 是 909， 那么 没有 邮件 会 与 规则 匹配 ， 因 为 总 
有 一 个 比特 会 发 生 故 障 ， 而 且 所 有 邮件 都 会 通过 过 滤器 。 总 的 来 说 ， 
一 封 邮件 只 有 在 其 出 现 和 不 出 现 的 单词 模式 都 经 过 规则 允许 时 ， 才 能 
与 规则 匹配 。 一 个 规则 的 适应 度 束 是 规则 正确 分 类 邮件 的 百分数 。 从 
一 堆 随 机 的 字符 串 开 始 ， 每 个 位 串 代 表 一 个 包含 随机 条 件 的 规则 ， 通 
过 不 断 重复 和 改变 每 代 中 的 最 匹配 位 串 ， 这 时 遗传 算法 就 可 以 进化 出 
越 来 越 好 的 规则 。 例 如 ， 如 果 当 前 包含 这 些 规则 : 如 果 邮 件 包 


含 “free”， 那 么 它 就 是 垃圾 邮件 ， 如 果 邮 件 包 含 “easy”〈 简 单 的 ) 那么 
它 葡 是 垃圾 邮件 。 将 这 两 个 规则 交叉 可 能 会 产生 适应 度 更 高 的 规则 : 
如 果 邮 件 都 包含 “free”* 和 “easy”， 那 么 它 就 是 垃圾 邮件 ， 前 提 是 交 义 点 
不 落 在 与 这 些 词 (free、easy) 相对 应 的 两 个 比特 中 间 。 它 也 可 能 会 产 
生 这 样 的 规则 :所 有 的 邮件 都 是 垃圾 邮件 ， 这 样 的 规则 是 抛弃 所 有 条 
件 后 得 出 的 ， 但 它 在 下 一 代 中 不 太 可 能 产生 很 多 子规 则 。 


既然 我 们 的 目标 是 尽 可 能 设计 出 最 好 的 垃圾 邮件 过 滤 磊 ， 和 老 老 
实 实 模拟 真正 的 目 然 选择 相反 ， 我 们 可 以 大 大 方 方 地 作 整 ， 方 法 吏 是 
通过 改变 算法 来 适应 我 们 的 需求 。 遗传 算 法 能 够 频 紧 作 贬 的 方法 ， 整 
是 允许 有 永 不 炎 亡 的 东西 (现实 生活 中 却 不 存在 ， 太 糟 了 ) 。 在 那 种 
方法 中 ， 适 应 力 很 强 的 个 体 不 仅 会 在 它 那 一 代 中 为 了 楷 殖 而 竞争 ， 还 
会 跟 它 的 “儿子 “孙子 ”“ 重 让 ”等 竞争 ， 只 要 在 群体 中 还 保留 有 其 中 一 
个 适应 力 最 强 的 个 体 。 相 反 ， 在 现实 世界 中 ， 适 应 能 力 强 的 个 体能 做 
到 最 好 的 ， 也 就 十 将 其 一 半 的 基因 传 给 许多 孩子 ， 而 每 个 孩子 的 适应 
能 力 可 能 不 会 那么 高 ， 因 为 遗传 了 父母 另外 一 方 的 基因 。 不 朽 性 避免 
了 这 样 的 倒退 ， 而 且 如 有 果 科 运 ， 能 让 算法 更 快 地 达到 理想 的 适应 力 。 
当然 ， 既 然 历史 上 最 适合 生存 的 人 类 都 是 通过 其 后 代 的 数量 来 衡量 
的 ， 比 如 成 吉 思 汗 (当今 200 个 人 中 就 有 一 个 人 是 他 的 后 代 ) 。 现 实 世 
界 中 没有 水 生 这 一 说 ， 也 许 也 没 那 么 粳 。 


如 果 我 们 想 对 一 整套 而 不 只 是 一 个 垃圾 邮件 过 滤 规 则 进行 进化 ， 
我 们 可 以 用 含有 nx20 000 个 比特 的 字符 串 (每 个 规则 有 20 000 个 ， 和 
之 前 一 样 ， 假 设 数据 里 有 1 万 个 不 同 的 词 ， 来 代表 有 n 个 规则 的 规则 
集 。 有 些 词 会 用 “00” 来 表示 ， 那 些 包 含 这 些 词 的 规则 实际 上 会 从 规则 
集中 消失 ， 因 为 这 些 规则 不 会 和 任何 邮件 相 匹 配 ， 这 和 我 们 之 前 看 到 
的 一 样 。 如 果 一 封 邮件 和 规则 集中 的 任何 规则 都 匹配 ， 那 么 它 就 被 分 
类 成 垃圾 邮件 ， 否 则 就 是 合法 邮件 。 我 们 还 可 以 把 适应 度 当 作 正 确 分 
类 邮件 的 百分数 ， 但 为 了 防止 过 拟 合 ， 我 们 可 能 想 从 这 个 百分数 中 扣 
除 与 规则 集中 和 活性 条 件 相 称 的 处 罚 比 例 。 


我 们 甚至 可 以 做 得 更 好 ， 方 法 瓯 是 允许 过 小 概念 的 规则 进行 进 
化 ， 然 后 将 这 些 规则 在 运行 时 串 起 来 。 例 如 ， 我 们 可 以 对 这 样 的 规则 
进行 进化 : 如果 邮件 包含 “ 贷 球 ”一 词 ， 那 么 这 是 一 封 诈骗 邮件 ， 如 果 
这 封 邮 件 是 诈骗 邮件 ， 那 么 它 就 是 垃圾 邮件 。 既 然 一 个 规则 的 结果 不 
再 总 是 “垃圾 邮件 *"， 这 需要 引入 规则 字符 串 中 的 额外 比特 的 信息 来 代 
表 它 们 的 结果 。 当 然 ， 计 算 机 不 会 按照 字面 引用 “诈骗 ”这 个 词 ， 它 只 
会 找 出 任意 的 比特 串 来 表示 这 个 概念 ， 但 这 对 实现 我 们 的 目标 已 经 起 
到 很 好 的 作用 。 霍 兰 德 称 类 似 这 样 的 规则 集 为 “分 类 器 系统 ”， 是 他 建 
立 的 机 需 学 习 部 落 中 的 一 匹 “ 鸡 马 ?:， 演化 新 论 。 和 多 层 感知 器 一 样 ， 
分 类 器 系统 会 面临 赞誉 分 布 问题 一 过渡 概念 鸭 规则 适应 度 是 什么 ? 
另外 ， 霍 兰 德 设计 出 所 谓 的 “ 桶 队 算 法 ”(bucket brigade algorithm) 来 
解决 这 个 问题 。 即 便 如 此 ， 分 类 系统 和 分 层 感 知 器 相 比 ， 其 应 用 苑 围 
要 军 得 多 。 


和 费 雪 梳理 的 简单 模型 相 比 ， 遗 传 算法 有 了 很 大 的 进步 。 达 和 尔 文 
悲 中 目 己 的 数学 能 力 不 行 ,但 如 琳 他 了 晚 生 一 个 世纪 ， 他 可 能 义 会 布 望 
目 己 有 很 强 的 编程 能 力 。 的 确 ， 通 过 一 组 方程 来 充分 体现 目 然 选择 很 
困难 ， 但 将 目 然 选择 表达 为 一 种 算法 又 古 男 外 一 回 事 ， 而 且 这 样 还 能 
阐明 许多 其 他 坏 手 的 问题 。 为 什么 一 些 物 种 会 突然 出 现在 化 石 记录 
中 ? 能 够 证 明 这 些 物种 是 渐渐 由 早期 物种 进化 而 来 的 证 据 在 哪里 ? 
1972 年 ， 尼 和 尔 斯 : 埃 尔 德 雷 奇 和 史 蒂 分 : 杰 伊 ' 古 尔 德 提 出 进化 过 程 由 一 
系列 “间断 平衡 ?组 成 ， 长 期 的 停 请 与 短暂 的 快速 变化 相互 交 奉 ， 束 像 
寒 武 纪 爆 发 那样 。 这 个 问题 引起 微 烈 的 讨论 , “间断 平衡 ?理论 的 批评 
家 将 其 命名 为 "跳跃 式 进化 ”"， 而 埃 尔 德 雷 奇 和 古 尔 德 则 反驳 称 ， 渐 进 
主义 就 是 “ 铀 灸 式 进化 ”。 遗 传 算法 的 经 验 会 对 支持 “跳跃 式 进化 ”的 一 
方 有 利 。 如 有 果 你 运行 10 万 代 遗 传 算法 ， 然 后 每 阳 1000 代 观察 群体 的 数 
量 ， 那 么 适应 度 与 时 间 的 曲线 图 可 能 看 起 来 会 像 融 低 错 落 的 楼 梯 ， 
形 突然 上 升 ， 然 后 苹 随 着 时 间 慢 慢 变 长 的 平台 期 。 要 和 弄 明 日 为 什么 也 
不 难 。 一 旦 算法 达到 适应 度 的 局 部 最 大 值 (适应 度 中 的 峰值 ) ， 算 法 
会 在 这 一 点 停 很 长 时 间 ， 直 到 某 次 六 运 的 变异 或 者 交 义 ， 让 处 于 坡 上 


的 个 体 等 到 更 高 的 峰 顶 ， 在 这 一 点 上 该 个 体会 进行 大 量 老 殖 ， 然 后 和 
过 往 的 每 一 代 来 仆 上 这 个 坡 。 当 前 的 峰值 越 高 ， 该 过 程 发 生前 的 那 段 
时 间 束 越 长 。 当然 ， 目 然 选 择 比 这 还 要 复杂 : 一 个 原因 天 是 ， 环 境 可 
能 会 变化 ， 要 么 是 目 然 上 的 改变 ， 要 么 是 因为 其 他 有 机 体 目 身 进 化 
了 。 画 外 ， 处 于 峰值 的 有 机 体 可 能 会 突然 发 现 ， 对 于 再 次 进化 ， 它 面 
临 巨大 的 压力 。 因 此 ， 虽 然 有 用 ， 当 前 的 遗传 算法 还 远 远 不 是 故事 的 
结局 。 


探索 : 利用 困境 


我 们 应 注意 遗传 算法 和 多 层 感知 右 的 差异 程度 。 反 问 传 播 会 在 任 
何 给 定时 间 坚 持 单一 假设 ， 而 且 这 个 假设 会 渐渐 改变 ， 直 到 其 适应 某 
个 局 部 最 优 值 。 遗 传 算法 会 在 每 一 步 中 考虑 整个 群体 的 假设 ， 而 由 于 
交叉 行为 ， 这 些 假设 可 以 从 这 一 代 跨 到 下 一 代 。 将 初始 权 值 设 为 小 的 
随机 值 后 ， 有 反问 传播 才 会 确定 继续 进行 下 去 。 相 反 ， 遗 传 算法 则 充满 
随机 选择 : 该 使 哪些 假设 成 立 并 进行 区 叉 〈 适 应 度 更 高 的 假设 更 有 可 
能 成 为 备 选 对 象 ) ， 该 在 哪里 对 两 个 字符 串 进 行 交 叉 ， 该 使 哪些 比特 
的 信息 发 生 突变 。 反 疝 传播 为 了 预先 设 定 的 网 络 结构 掌握 权 值 ， 密 集 
度 更 大 的 网 络 更 为 灵活 ， 但 掌握 起 来 也 更 困难 。 除 了 通用 式 以 外 ， 遗 
传 算法 不 会 对 它们 即将 学 习 的 结构 进行 预先 假设 。 


因为 这 个 原因 ， 和 反 向 传播 相 比 ， 遗 传 算法 陷入 局 部 最 优 值 困境 
的 可 能 性 较 小 ， 而 且 原 则 上 也 更 有 可 能 找到 真正 新 颖 的 东西 ， 但 遗传 
算法 分 析 起 来 也 要 难得 多 。 我 们 怎么 知道 ， 遗 传 算法 会 得 出 有 意义 的 
结 朱 ， 而 不 是 像 众所周知 的 酒 昂 那样 到 处 哆 您 ? 问题 的 关键 在 于 要 从 
构建 模块 的 角度 去 考虑 。 字 符 串 比特 的 每 个 子 集 都 可 能 会 对 有 用 的 构 
造 块 进行 编码 ， 当 我 们 将 两 个 字符 串 进行 交 义 时 ， 这 些 构造 块 会 队 集 
到 一 起 ， 形 成 一 大 块 构造 块 ， 反 过 来 这 个 大 构造 块 又 会 变 成 < 磨坊 中 的 


谷物 ”。 霍 兰 德 喜欢 用 警方 提供 的 画像 来 解释 构造 块 的 力量 。 在 计算 机 
还 没 出 现 的 年 代 ， 和 警 局 的 拼图 师 能 够 很 快 将 嫌疑 人 的 画像 拼 在 一 起 ， 
方法 驶 是 在 采访 中 让 目击 者 从 画 有 典型 嘴 型 的 一 组 纸 带 中 挑选 嘴巴 ， 
然后 用 同样 的 方法 选 出 眼睛 、 曙 于、 下 巴 等 。 只 有 10 个 构造 块 ， 每 个 
构造 块 有 10 个 选择 ， 这 个 系统 会 虑 及 100 亿 张 脸 ， 比 地 球 上 的 总 人 口 还 
要 多 * 


在 机 顺 学 习 中 ， 和 计算 机 科学 的 其 他 领域 一 样 ， 没 有 什么 比 得 到 
这 种 对 你 有 利 而 非 有 害 的 组 合 爆 炸 更 好 的 东西 了 。 遗 传 算法 的 灵活 之 
处 整 在 于 ， 每 个 字符 串 都 暗合 指数 数量 的 构造 块 ， 被 称 为 “ 基 模 ”"， 因 
此 该 研究 比 它 看 起 来 的 还 要 高 效 得 多 。 这 是 因为 字符 串 比 特 的 每 个 子 
集 都 是 一 个 基 模 ， 代 表 可 能 合适 的 性 能 组 合 ， 而 一 个 字符 串 有 指数 数 
量 的 子 集 。 我 们 可 以 用 这 样 的 方法 来 代表 基 模 ， 也 就 是 用 “*” 来 代替 字 
符 串 中 不 属于 该 字符 串 的 比特 。 如 110 这 个 字符 串 中 包含 以 下 基 模 : 
六 站 站、 六 六 站 、 1# 洲 、 六 10、11*、1#*0， 以 及 110 o 每 选 一 个 不 同 的 比特 ， 
我 们 就 得 到 一 个 不 同 的 基 模 ， 因 为 每 个 比特 我 们 有 两 个 选择 (包含 或 
不 包含 ) ， 那 么 我 们 就 有 2 个 基 模 。 相 反 ， 在 群体 中 ， 一 个 特定 的 基 
模 可 能 由 许多 不 同 的 字符 串 来 表示 ， 而 且 每 当 这 时 ， 这 些 基 模 都 会 受 
到 隐 式 评估 。 假 设 在 下 一 代 中 仍 成 立 的 概率 与 其 适应 度 成 正比 ， 那 会 
怎样 ? 霍 兰 德 表明 ， 在 这 种 情况 下 ， 和 平均 值 相 比 ， 在 某 代 中 表示 基 
模 的 字符 串 适 应 度 越 高 一 一 我 们 能 期 望 的 一 一 在 下 一 代 中 看 到 这 些 表 
示 字 从 串 的 数量 也 越 多 。 那 么 ， 虽然 遗传 算法 暗地里 对 字符 进行 操 
纵 ， 它 也 会 找到 基 模 更 大 的 可 能 性 。 随 着 时 间 的 流逝 ， 适 应 度 更 高 的 
基 模 会 主导 群体 ， 所 以 不 像 醇 汉 那样 ， 遗 传 算法 能 找到 加 家 的 路 。 


机 器 学 习 中 最 重要 的 问题 之 一 (也 是 关于 生命 最 重要 的 问题 之 
一 ) ， 就 是 探索 一 利用 困境 。 如 果 已 经 找到 能 发 挥 作用 的 东西 ， 你 还 
会 继续 找 吗 ? 还 十 做 新 的 壬 试 会 更 好 ， 知 道 这 样 可 能 会 汇 费 时 间 ， 但 
也 许 会 找到 更 好 的 办 法 ? 你 想 做 牛仔 还 是 农民 ? 想 目 己 开 一 家 公司 ， 
还 是 管理 一 家 已 经 成 立 的 公司 ? 想 用 情 专 一 ， 还 是 三 心 二 意 ? 中 年 危 


机 意味 着 把 多 年 的 时 间 人 花费 在 利用 某 种 东西 之 后 ， 会 极度 询 望 探索 新 
事物 。 一 时 冲动 之 下 ， 你 飞 到 拉 斯 书 加 斯 ， 准 备 赌 光 你 毕生 的 积 蕾 ， 
变 成 百 万 富 兮 。 你 进入 赌场 ， 然 后 面 对 一 排 老 虎 机 。 你 要 在 能 给 你 平 
均 回 报 最 多 的 那 台 机 右上 玩 ， 但 你 不 知道 古 哪 台 。 那 么 你 束 得 每 全 都 
试 ， 次 数 够 了 才能 弄 明 日 。 但 如 采花 太 多 时 间 来 做 这 个 ， 你 束 把 钱 痕 
费 在 会 输 的 那 台 机 右上 。 相 反 ， 如 果 操 之 过 急 ， 选 了 一 人 台 前 儿 轮 碰巧 
让 你 手气 不 错 的 机 器 ， 但 实际 上 并 不 是 让 你 获得 回报 最 多 的 一 人 台 ， 那 
么 今 晚 剩 下 的 时 间 你 束 会 把 钱 浪费 在 这 台 机 右上 。 这 束 是 探索 一 利用 
困境 。 每 次 你 玩 的 时 候 ， 要 么 你 束 移 择 重 复 目 前 为 止 发 现 的 最 好 的 一 
把 ， 这 样 束 能 给 你 最 好 的 回报 ， 要 么 束 试 试 其 他 几 把 ， 这 样 能 够 让 你 
知道 怎样 才能 寿 得 更 多 。 利 用 两 侣 老虎 机 ， 霍 兰 德 表明 最 优 策略 加 足 
每 次 抛 一 个 偏 币 ， 在 这 个 策略 中 ， 随 痢 你 进行 这 些 步 又 ， 和 原来 的 硬 
币 相 比 ， 这 时 的 硬币 会 呈 指 数 偏 傅 〈 如 果 这 种 方法 对 你 不 起 作用 ， 别 
指控 我 。 记 住 最 后 启 的 总 是 赌场 ) 。 一 人 台 老 虎 机 看 起 来 越 好 ， 你 就 越 
应 该 玩 它 ， 但 也 别 完 全 放弃 另外 一 合 ， 毕 竟 另 外 一 人 台 也 有 可 能 会 让 你 
最 得 更 多 。 


遗传 算法 束 像 一 群 赌 徒 中 的 元 凶 ， 同 时 在 市 里 的 每 个 赌场 玩 老 虎 
机 。 如 果 两 个 基 模 包含 相同 的 比特 量 而且 至 少 有 一 个 比特 的 值 不 同 ， 
那么 这 两 个 基 模 就 会 互相 苋 争 ， 例 如 *10 和 *11， 而 n 个 互相 竞争 的 基 模 
忠 像 n 台 老虎 机 一 样 。 每 个 互相 苋 争 的 基 模 集 痢 是 一 个 “赌场 "， 遗 传 算 
法 会 同时 弄 清 楚 每 个 “赌场 ”中 会 说 的 机 右 ， 依 据 的 是 最 优 策略 ， 以 成 
倍增 长 的 频率 去 玩 看 起 来 启 得 越 来 越 多 的 机 器 。 太 聪明 了 ! 


在 《银河 系 漫游 指南 》 中 ， 外 来 种 族 为 了 回答 终极 问题 ， 造 了 一 
台 巨 大 的 超级 计算 机 ， 过 了 很 长 时 间 ， 计 算 机 吐出 “42” 这 个 数字 。 但 
这 台 计 算 机 还 指出 ， 外 星人 不 知道 问题 是 什么 ， 所 以 他 们 又 造 了 一 台 
更 大 的 计算 机 来 弄 明 白 这 个 问题 是 什么 。 这 人 台 计 算 机 (也 称 “ 行 星 地 
球 ”) 很 遗憾 地 在 持续 了 几 百 万 年 的 计算 ， 即 将 完成 的 几 分 钟 前 ， 被 扒 


驳 了 ， 因 为 要 为 空间 高 速 公 路 让 路 。 现 在 我 们 只 能 猜 那个 问题 是 什么 
了 ， 可 能 会 是 : 你 打算 玩 哪 台 老虎 机 ? 


程序 的 适 者 生存 法 则 


在 开始 的 几 十 年 ， 遗 传 算法 的 阵营 主要 由 约 阳 ' 霍 兰 德 、 他 的 学 
生 、 这 些 学 生 的 学 生 组 成 。 大 约 在 1983 年 的 时 候 ， 遗 传 算法 解决 的 最 
大 问题 殉 是 学 会 控制 天 然 气管 道 系统 。 不 过 ， 大 概 同 样 的 时 间 段 ， 神 
经 网 络 回 归 了 ， 人 们 对 进化 计算 的 兴趣 也 开始 浓厚 起 来 。 关 于 遗传 算 
法 的 第 一 次 会 议 于 1985 年 在 匹 效 您 举行， 遗传 算法 的 寒 武 纪 大 爆发 也 
正在 进行 中 。 其 中 的 一 些 变 体 尝试 更 加 接近 地 模拟 进化 〈 毕 竟 基 本 遗 
传 算法 仅 对 进化 进行 了 非常 粗略 的 模拟 ) 而 其 他 变 体 则 从 不 同方 向 模 
拟 ， 利 用 让 达尔 文 困惑 的 计算 机 科学 概念 来 跨越 进化 论 观点 。 


霍 兰 德 的 学 生 中 较为 出 色 的 是 约 鞭 : 科 扎 。1987 年 ， 他 在 意大利 参 
加 会 议 ， 飞 回 加 利 福 尼 亚 时 ， 有 一 瞬间 他 突然 醒悟 了 。 我 们 要 不 要 对 
成 熟 的 计算 机 程序 进行 进化 ， 而 不 是 发 展 相 对 简单 的 东西 ， 如 “如 
果 .…… 那 么 .……? 规 则 以 及 天 然 气管 道 控制 ? 如 采 那 是 目标 ， 为 什么 还 
要 继续 用 字符 串 来 表示 呢 ? 程序 束 像 是 一 棵 子 程序 调用 树 ， 所 以 最 好 
还 是 直接 穿 过 那些 子 树 ， 而 不 是 将 它们 便 塞 到 字符 串 中 ， 而 且 当 你 随 
机 取 点 穿 过 这 些 子 树 时 ， 会 时 着 将 很 好 的 程序 摊 或 的 风险 。 


例如 ， 假 设 你 想 进 化 一 个 程序 ， 根 据 行星 到 太阳 的 距离 D 来 计算 
该 行星 的 运行 周期 了。 根据 开 普 勒 第 三 定律 ，T 征 D 的 立方 的 开平 方 ， 
乘 以 一 个 间 数 C， 该 常数 的 值 取 决 于 你 使 用 的 时 间 和 距离 单位 。 遗 传 
算法 应 该 像 开 普 勒 那样 ， 通 过 得 看 第 谷 . 布 拉 赫 关于 行星 运行 的 数据 ， 
就 可 以 发 现 这 个 规律 。 在 科 扎 的 方法 中 ，D 和 C 征 程序 树 上 的 时 了 于， 而 
将 其 结合 起 来 的 运 滤 ， 比 如 乘法 运算 和 求 平方 根 运 算 ， 就 是 内 部 市 
点 。 以 下 程序 树 能 准确 计算 出 了 ( 见 图 5-2) 。 


科 扎 称 他 的 方法 为 “遗传 编程 ”， 在 这 个 方法 中 ， 我 们 通过 随机 区 
换 程序 树 的 两 棵 子 树 ， 来 对 两 棵 程序 树 进行 交 文 。 例 如 ， 将 这 两 棵 树 
的 高 亮 世 点 交叉， 隋 会 产生 能 够 计算 出 7 的 程序 ， 这 个 程序 为 其 中 的 一 
棵 子 树 ( 见 图 5-3) 。 
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我 们 可 以 测量 程序 的 适应 度 (或 缺乏 适应 度 ) ， 方 法 就 是 通过 其 
输出 值 与 训练 数据 中 的 准确 值 之 间 的 差距 来 判断 。 例 如 ， 如 果 程 序 说 
地 球 的 周期 是 300 天 ， 这 束 意 味 着 要 从 其 适应 度 中 减 挥 65。 以 一 群 随机 
程序 树 作为 开头 ， 遗 传 编 程 利用 交 义 、 变 异 、 生 存 来 渐渐 进化 出 更 好 
的 程序 ， 直 到 满意 为 止 。 


当然 ， 计 算 行 星 的 周期 是 一 个 很 简单 的 问题 ， 仪 仅 涉及 乘法 和 平 
方 根 运 算 。 一 般 情 况 下 ， 程 序 树 包含 全 面 的 编程 结构 ， 例 如 “如 采 .……… 
那么 .……...” 陈 述 、 循 环 、 递 归 。 更 能 解释 “遗传 编程 用 来 做 什么 ”的 例子 
束 是 ， 腊 明日 机 絮 人 需要 按照 什么 顺序 来 行动 ， 以 达到 某 个 目标 。 比 
如 我 让 办 公 机 器 人 从 走廊 的 柜子 里 拿 一 个 订 书 机 。 机 器 人 可 进行 大 量 
的 动作 ， 例 如 ， 走 到 走 太 中、 开门、 拿 起 菜 个 物品 等 。 这 些 动作 反 过 
来 可 以 由 各 种 小 动作 组 成 ， 比 如 机 器 人 的 手 同 物 品 移 动 ， 或 者 在 各 种 
不 同 的 点 抓 住 物品 。 每 个 行为 是 否 可 能 会 被 执行 ， 取 决 于 之 前 行为 的 
结果 ， 也 可 能 需要 被 重复 多 次 等 。 这 个 挑战 在 于 要 组 合 这 些 动作 和 子 
动作 的 正确 结构 ， 以 及 每 个 动作 的 参数 ， 例 如 ， 手 要 移动 多 长 的 距 
离 。 机 器 人 的 “原子 性 ”动作 以 及 每 个 动作 的 结合 为 开端 ， 遗 传 编 程 能 


够 组 合 一 个 复杂 的 动作 ， 并 达到 理想 目标 。 通 过 这 种 方法 ， 许 多 研究 
人 员 已 经 为 机 器 人 足球 运动 员 制 定 了 策略 。 


对 程序 树 而 不 是 子 符 串 进行 交 义 得 出 的 一 个 结果 就 十 ， 生 成 的 程 
序 可 以 任意 大 ， 这 让 学 习 活 动 变 得 更 加 灵活 。 然 而 ， 整 体 的 趋势 束 古 
会 变 得 膨胀 ， 因 为 随 着 进化 持续 的 时 间 变 长 (也 称 为 “ 适 者 生存 ”) ， 
树 也 会 越 长 越 大 。 演 化 新 论 者 可 以 从 这 个 事实 中 获取 安奈! 人 类 编写 
的 程序 之 间 并 没有 什么 不 同 (微软 的 Windows 系 统 : 4500 万 行 的 代码 
和 计算 ) ， 而 且 人 造 代 码 也 不 会 允许 这 样 一 种 简单 的 方法 : 将 复杂 性 
处 区 添加 到 适应 度 函 数 中 束 可 以 了 。 


遗传 编程 的 第 一 次 成 功 是 在 1995 年 ， 也 就 是 成 功 设 计 了 电子 电 
路 。 以 一 扒 电 子 元 件 为 开端 ， 例 如 ， 唱 体 管 、 电 阻 问 、 电 容 如 ， 科 扎 
的 系统 为 了 一 台 低 通 滤波 器 ， 彻 底 改 造 之 前 的 一 个 专利 设计 (这 是 一 
个 电路 图 ， 其 用 途 之 一 就 是 加 强 舞 蹈 音乐 中 的 低音 ) 。 自 那 以 后 ， 他 
就 开始 对 专利 设备 进行 改造 ， 成 打 地 改造 出 其 他 设备 。 下 一 个 里 程 碑 
于 2005 年 到 来 ， 当 时 美国 专利 及 商标 局 为 一 项 专利 颁奖 ， 该 专利 根据 
遗传 学 设计 ， 是 工厂 的 优化 系统 。 如 果 图 灵 测 试 思 弄 的 是 专利 审查 员 
而 不 是 谈话 高 手 ， 那 么 2005 年 1 月 25 日 ， 就 是 一 个 可 载 入 史册 的 日 子 。 


科 扎 的 目 信 在 这 样 一 个 不 以 谦逊 著称 的 领域 显得 尤为 突出 。 他 将 
遗传 编程 当 作 一 人 台 会 发 明 东 西 的 机 需 ， 当 作 21 世 纪 的 硅 版 爱迪生 。 他 
和 其 他 演化 新 论 者 相信 ， 它 可 以 掌握 一 切 程序 ， 这 让 他 们 进入 了 终极 
算法 的 争夺 赛 中 。2004 年 ， 他 们 创立 一 年 一 度 的 “人 类 竞争 
次 >” (Humie Awards) ， 来 认可 “人 类 竞赛 "相关 的 遗传 编程 创作 。 迄 今 
为 止 ， 已 经 颁发 39 个 奖项 。 


性 有 何 用 


尽管 他 们 取得 了 成 功 ， 也 对 诸如 渐进 主义 与 间断 平衡 的 问题 发 表 
见解 ， 但 遗传 算法 还 有 一 个 很 大 的 谜团 没有 解 开 : 性 在 进化 过 程 中 所 
起 的 作用 。 演 化 新 论 痢 非常 重视 交叉 行为 ， 但 其 他 学 派 的 成 员 认为 没 
有 必要 如 此 麻烦 。 霍 兰 德 没有 哪个 理论 结果 表明 ， 区 叉 行 为 能 起 作 
用 。 经 过 一 段 时 间 ， 突 变 足 以 成 倍 地 增加 群体 中 最 适合 留 下 的 基 模 的 
频率 。 而 “构造 模块 "的 直觉 很 吸引 人 ,但 很 快 整 会 遇 到 麻烦 ， 即 使 用 
上 遗传 算法 也 没 用 。 随 着 模块 演变 得 越 来 越 大 ， 交 文 行为 也 会 越 来 越 
趋 问 于 将 这 些 模块 解散 。 还 有 ， 一 旦 适应 力 强 的 个 体 出 现 ， 其 后 代 很 
有 可 能 快速 掌管 该 群体 ， 并 有 可 能 将 更 好 的 基 模 挤 出 ， 这 些 基 模 受到 
整体 上 不 那么 相配 的 个 体 的 奉 绊 。 这 有 效 城 少 了 研究 适应 度 冠 军 变化 
的 工作 量 。 研 究 者 已 经 找到 许多 方案 ， 能 够 保存 群体 中 的 多 样 性 ， 但 
研究 结果 还 不 确定 。 工 程 师 们 当然 广泛 应 用 构造 模块 ， 但 将 这 些 构 造 
块 结合 起 来 束 会 在 很 大 程度 上 涉及 工程 学 的 内 容 。 这 不 是 用 旧 办 法 把 
它们 丢 在 一 起 那么 简单 ， 也 不 古 明显 的 交 广 行为 束 能 取得 成 功 的 。 


消除 性 别 对 于 演化 新 论 者 来 说 ， 束 只 剩 下 变异 作为 其 理论 的 推动 
力 。 如 果 群 体 的 规模 大 体 上 比 基 因 的 数量 大 ， 很 有 可 能 每 个 点 突变 都 
己 体 现在 其 中 ， 而 人 研究 整 变 成 仆 山 法 的 一 种 ， 壬 试 所 有 可 能 的 单 步 变 
种 ， 挑 选 最 好 的 一 个 ， 然 后 重复 这 个 步骤 (或 者 挑选 几 个 最 好 的 变 
种 ， 这 种 情况 就 被 称 为 “定向 搜索 *”) 。 应 特别 指出 的 是 ， 符 号 学 派 一 
直 用 这 种 方法 来 掌握 规则 集 ， 虽 然 他 们 不 把 它 当 成 进化 的 一 种 形式 。 
为 了 避免 陷入 局 部 最 大 值 的 陷阱 ， 扑 山 法 可 以 通过 随机 性 (以 某 个 概 
率 做 下 坡 移 动 ) 和 随机 重启 (过 一 会 儿 后 ， 跳 到 随机 状态 ， 然 后 从 那 
儿 继 续 ) 来 得 到 加 强 。 这 样 做 已 经 足以 找到 解决 问题 的 好 办 法 。 为 其 
添加 交叉 行为 是 否 能 证 明 额 外 计算 成 本 的 合理 性 ， 这 有 竺 回答 。 


没 人 知道 为 什么 性 别 在 目 然 界 中 无 处 不 在 。 人 们 已 经 提出 儿 个 理 
论 ， 但 没有 一 个 被 广泛 接受 。 这 方面 的 领先 理论 是 “红星 后 ”假说 ， 马 
特 : 里 德 利 在 同名 书 中 向 人 们 介绍 该 理论 。 在 《爱丽 丝 镜 中 世界 奇遇 
记 》 中 ， 红 桃 星 后 对 爱丽 丝 说 : “全 力 奔 跑 ， 这 样 你 才能 留 在 原 


地 。?” 依 照 这 个 观点 ， 有 机 体 和 寄生 虫 就 会 永远 处 在 竞赛 中 ， 而 性 可 以 
保持 群体 的 多 样 性 ， 这 样 单一 微生物 就 不 会 感染 整个 群体 了 。 如 果 这 
忠 古 答案 ， 那 么 性 束 和 机 器 学 习 不 相关 ， 这 至 少 持 续 到 掌握 的 程序 因 
为 处 理 器 时 间 和 内 存 而 与 计算 机 病毒 进行 抗战 《有趣 的 是 ， 丹 尼 : 希 利 
斯 称 ， 有 意 将 共同 进化 的 寄生 虫 引 入 遗传 算法 中 ， 可 以 帮 它 避免 局 部 
最 大 值 困 境 ， 方 法 吏 是 逐步 加 大 难度 ， 但 还 没有 人 继续 采用 他 的 观 
点 ) 。 赫 里 斯 托 斯 :由 由 季 米 特 里 马 和 同事 表明 ， 人 性 优化 的 不 是 适应 
度 ， 而 是 他 们 所 请 的 “混合 度 ”， 当 与 其 他 基因 结合 时 ， 一 个 基因 表现 
出 平均 水 平民 好 的 能 力 。 束 像 目 然 选择 一 样 ， 当 适应 度 函 数 要 人 么 不 足 
已 知 ， 要 么 不 是 常数 时 ， 这 个 说 法 会 起 作用 。 但 是 在 机 器 学 习 和 最 优 
化 中 ， 扑 山 可 能 会 做 得 更 好 。 


遗传 编程 的 问题 不 会 惑 此 结束 。 的 确 ， 虽 然 它 获得 的 成 功 可 能 不 
会 像 演化 新 论 者 硕 望 的 那样 和 遗传 有 很 大 联系 。 以 电路 设计 为 例 ， 这 
瓯 是 遗传 编程 成 功 的 典型 。 作 为 一 种 规则 ， 即 使 相对 简单 的 设计 也 需 
要 大 量 的 人 研究， 而且 也 不 知道 ， 得 出 的 结果 多 大 程度 上 上 归功 于 灾 力 强 
攻 而 不 是 遗传 学 智慧 。 为 了 回应 越 来 越 多 的 批评 者 ， 科 扎 1992 年 的 书 
《遗传 编程 》 (Genetic Programming) 包含 的 实验 表明 ， 迁 传 编程 在 
布尔 电路 合成 问题 上 打败 了 随机 生成 备 选 项 ， 但 胜利 的 优势 很 小 。 接 
着 ，1995 年 在 加 利 福 尼 亚 太 洗 湖 举办 的 机 器 学 习 国际 会 议 〈ICMLL ) 
上 ， 凯 文 . 妆 发 表 了 一 篇 论文 ， 论 文 表 明 疏 山 法 在 相同 的 问题 上 打败 了 
遗传 编程 ， 而 且 胜 利 的 优势 很 大 。 科 扎 和 其 他 演化 新 论 者 已 经 不 断 活 
试 在 ICML 上 发 表 论 文 ， 因 为 这 是 该 领域 的 重要 会 议 ， 但 让 他 们 越 来 越 
感到 挫败 的 是 ， 因 为 经 验 验 证 不 足 ， 他 们 不 断 遭 到 拒绝 。 论 文 被 拒 已 
经 让 科 扎 感到 失落 ， 看 到 朗 的 文 草 ， 更 让 科 扎 感到 气急 败坏 。 在 短 时 
间 内 ， 他 以 ICML 的 两 栏 格式 ， 整 理 了 一 篇 23 页 的 论文 ， 反驳 朗 的 结 
论 ， 并 控诉 ICML 评 审 员 的 科学 不 端 行为 。 他 接着 在 会 等 的 每 个 位 置 都 
放 了 一 份 论文 复印 件 。 依 据 你 的 观点 ， 不 是 朗 的 论文 ， 束 是 科 扎 的 回 
应 成 为 最 后 一 根 稻草 。 不 管 怎样 ， 太 浩 湖 事 件 标志 着 演化 新 论 者 与 机 
句 学 习 阵 营 中 其 他 流派 最 后 的 决 神 。 壮 传 编程 员 开 始 举 办 目 己 的 会 


议 ， 这 些 会 议 与 遗传 算法 会 议 合并 ， 成 为 < 遗传 与 进化 计算 会 
议 ”(GECCO) 。 对 于 演化 新 论 者 这 部 分 ， 机 器 学 习 主流 学 派 已 经 委 
大 程度 上 把 他 们 忘记 。 这 是 一 个 悲伤 的 结局 ， 但 在 历史 上 并 不 是 第 一 
次 ， 性 是 决裂 的 原因 。 


性 在 机 器 学 习 中 可 能 还 未 取得 成 功 ， 但 作为 一 种 安 感 ， 它 已 经 在 
技术 的 发 展 中 起 到 重要 作用 。 色 情 描写 是 万 维 网 中 未 公开 承认 的 “杀手 
级 应 用 *”， 更 别 说 它 在 印刷 、 摄 影 、 视 频 领 域 束 更 受 欢 迎 了 。 振 动 器 十 
第 一 台 手 持 电 子 设备 ， 预 示 着 一 个 世纪 之 后 手机 的 出 现 。 小 型 摩托 车 
在 战 后 的 欧洲 ， 特 别 钙 在 意大利 受到 欢迎 ， 因 为 它们 能 够 让 年 轻 的 夫 
妇 离 开 家 人 “。100 万 年 前 ， 当 直立 人 发 现 火 时 ， 其 中 的 一 个 “杀手 级 应 
用 ”当然 是 便于 约会 。 同 样 肯定 的 是 ,“ 拟 人 化 ”机 器 人 变 得 越 来 越 真 
实 ， 其 主要 推动 力 是 性 爱 机 器 人 行业 的 发 展 。 性 似乎 才 是 最 后 的 结 
局 ， 而 不 是 技术 演化 的 手段 。 


先天 与 后 天 


演化 新 论 者 和 联结 学 派 重 要 的 共同 点 是 : 他 们 都 因为 受到 目 然 局 
发 而 设计 了 学 习 算 法 ， 不 过 后 来 分 道 扬 锋 了。 演化 新 论 者 关注 的 古 学 
习 涤 构 ， 对 他 们 来 说 ， 通 过 参数 优化 来 对 演化 的 架构 进行 微调 ， 这 是 
次 重要 的 事情 。 相 反 ， 联 结 学 派 更 喜欢 用 一 个 简单 、 手 工 编 写 的 结 
构 ， 加 上 许多 连接 行为 ， 然 后 让 权 值 学 习 来 完成 所 有 工作 。 这 殉 是 机 
妖 学 习 版 本 天 于 先天 和 后 天 的 争论 ， 而 且 双 方 都 有 很 好 的 论据 。 


一 方面 ， 进 化 已 经 产生 许多 神奇 的 东西 ， 但 没有 什么 比 产生 你 更 
神奇 的 了 。 有 或 者 没有 交叉 行为 ， 进 化 结构 都 是 终极 算法 的 基本 部 
分 。 大 脑 可 以 学 习 任 何 东 西 ， 但 终极 算法 却 无 法 使 大 脑 进化 。 如 采 彻 
后 了 解 大 脑 的 结构 ， 束 可 以 将 其 运用 到 计算 机 硬件 中 ， 但 我 们 还 远 远 
做 不 到 这 一 点 。 通 过 计算 机 模拟 进化 寻求 帮助 是 一 件 容易 的 事情 。 男 


外 ， 我 们 也 想 对 机 器 人 的 大 脑 、 装 有 任意 传 感 絮 的 系统 、 超 级 人 工 入 
能 设备 进行 进化 。 如 果 有 更 好 的 东西 来 完成 这 些 任务 ， 我 们 融 没 有 理 
由 继续 使 用 根据 人 类 大 脑 设计 出 来 的 设备 。 男 一 方面 ， 进 化 的 过 程 绥 
慢 到 让 人 难以 不 受 。 一 个 有 机 体 的 一 生 只 会 产生 一 条 与 其 基因 组 相关 
的 信息 : 它 的 适应 度 ， 反 了 映 在 后 代 有 机 体 的 数量 上 。 这 位 直 古 在 浪费 
大 量 的 信息 ， 神 经 学 习 会 通过 在 使 用 的 点 上 (可 以 这 么 说 ) 获取 信息 
来 避免 这 个 问题 。 正 如 联结 学 派 的 杰 夫 : 圣 顿 指出 的 那样 ， 基 因 组 携 市 
的 信息 没有 什么 优势 ， 因 为 我 们 可 以 从 感知 中 获取 这 些 信息 。 当 新 生 
儿 睡 开眼 睛 时 ， 感 知 世界 会 涌 入 大 脑 ， 而 大 脑 只 需 组 织 这 些 感 知 。 然 
而 ， 基 因 组 中 需要 确定 的 信息 是 ， 完 成 这 些 组 织 工 作 的 “机 融 ” 的 结 
构 。 


在 先天 与 后 天 之 争 中 ， 两 方 都 没有 完整 的 答案 ， 关 键 在 于 找到 如 
何 将 两 方 结合 起 来 。 终 极 算法 既 不 是 遗传 编程 ， 也 不 是 反 回 传播 ， 但 
它 得 包含 这 两 者 的 重要 部 分 : 结构 学 习 和 权 值 学 习 。 在 传统 观点 看 
来 ， 先 天 上 自然 完成 第 一 部 分 〈 进 化 大 脑 ) ， 后 天 培育 再 将 大 脑 填 满 信 
轧 。 我 们 可 以 在 学 习 算 法 中 重复 这 个 过 程 。 首 爷 ， 学 习 网 络 的 结构 ， 
利用 扑 山 法 〈 举 个 例子 ) 来 决定 神经 元 之 间 如 何 连接 : 试 着 将 每 个 可 
能 的 新 连接 添加 到 网 络 中 ， 你 持 那 个 最 能 提高 性 能 的 连 返 ， 然 后 重复 
这 些 步 又。 之 后 利用 反 辐 传播 来 学 习 连 接 权 值 ， 那 么 你 全 新 的 大 脑 马 
上 束 可 以 使 用 了 。 


如 今 在 目 然 和 人 工 进化 中 ， 都 存在 一 个 很 重要 的 微妙 之 处 。 我 们 
会 为 每 个 备 选 的 结构 而 不 仅仅 是 最 终 的 那个 ， 而 一 直 学 习 权 值 ， 目 的 
是 为 了 明日 这 些 结构 在 生存 竞争 (在 自然 情况 下 ) 以 及 训练 数据 (在 
人 工 条 件 下 ) 中 的 表现 如 何 。 在 每 一 步 中 ， 我 们 想 选 择 的 结构 ， 是 在 
掌握 权 值 之 后 (而 不 是 之 前 ) ， 表 现 最 好 的 那个 。 因 此 ， 实 际 上 ， 苑 
天 目 然 并 不 一 定 会 排 在 后 天 培育 之 前 。 它 们 是 互相 交 敬 的， 每 轮 中 
的 “培育 ”学 习 会 为 下 一 轮 的 “ 目 然 ”学 习 做 好 基础 ， 反 之 亦 然 。 因 为 后 
天 的 培育 ， 先 天 也 会 得 到 进化 。 上 皮质 关 联 区 域 的 进化 在 感知 区 域 依赖 


于 神经 学 习 ， 没 有 神经 学 习 ， 它 束 会 变 得 双 无 用 处 。 小 牧 跟 着 妈妈 到 
处 走 (进化 的 行为 ;)， 但 得 首先 认识 妈妈 (通过 学 习 掌握 的 能 力 ) 

如 果 它 们 久 化 出 来 时 第 一 个 见 到 你 ， 束 会 跟着 你 走 ， 正 如 康 拉 德 :将 伦 
尝 明 确 表 明 过 的 那样 。 新 生 大 脑 已 经 对 环境 的 特点 进行 编码 ， 但 不 是 
很 明显 ， 进 化 过 程 会 将 大 脑 优 化 ， 从 预期 的 输入 信息 中 提取 那些 特 
上 护 。 同 样 的 道理 ， 在 交替 学 习 结 构 和 权 值 的 算法 中 ， 每 个 新 结构 都 瞳 
中 成 为 前 儿 轮 掌握 的 权 值 的 函数 。 


在 所 有 可 能 的 基因 组 中 ， 很 少 有 基因 组 和 活性 有 机 体 对 应 。 因 此 
典型 的 适应 度 “ 地 形 ”* 束 由 广 衰 的 “平原 ”组 成 ， 偶 尔 有 儿 座 “尖峰 *"， 这 
让 进化 变 得 十 分 困难 。 如 果 你 从 堪 院 斯 州 出 发 ， 绽 住 上 服 睛 ， 你 束 不 知 
道 通 往 落 基山 脉 的 路 在 哪里 ， 那 么 偶然 撞 上 山脚 并 开始 往 上 扑 之 前 ， 
你 很 长 一 段 时 间 都 是 在 晃 悠 。 但 如 有 果 你 把 进化 和 神经 学 习 结 合 起 来 ， 
有 趣 的 事情 惑 发 生 了 “。 如 有 果 你 在 平地 上 ， 距 离 山 脚 不 是 很 还， 网 络 学 
习 会 帮 你 到 达 那 里 ， 距 离 山 脚 越 近 ， 它 越 有 可 能 帮 你 。 它 殉 像 有 环视 
功能 一 样 : 在 威 奇 托 ， 它 帮 不 上 你 ， 但 在 丹佛 ， 你 会 看 到 远 处 的 落 基 
山脉 ， 然 后 往 那 个 方向 走 。 丹 佛 现在 看 起 来 距 比 你 之 前 绽 住 腿 时 看 起 
来 的 要 适应 得 多 了 。 净 效应 会 将 适应 度 顶峰 加 党， 这 样 你 从 之 前 艰难 
的 地 方 出 发 ， 找 到 通 往 这 些 峰 顶 的 路 束 成 为 可 能 ， 束 像 图 5-4 中 的 A 


适应 度 


基因 组 基因 组 


图 5-4 


在 生物 学 中 ， 这 称 作 “ 印 德 温 效应 ”， 该 效应 古 以 JM: 鲍 人 德 温 的 名 
字 命 名 的 ， 他 于 1896 年 提出 这 个 概念 。 在 鲍德温 进化 中 ， 初 次 掌握 的 
行为 ， 之 后 会 变 成 天 生 的 本 领 。 如 有 果 像 狗 一 样 的 哺乳 动物 能 学 会 游 
访 ， 那 么 筷 们 进化 成 海豹 的 可 能 性 会 比 济 死 的 可 能 性 更 大 。 选 择 个 体 
学 习 可 以 影响 进化 ， 不 必 依赖 拉 马 克 学 说 。 杰 夫 : 圣 顿 和 史 蒂 分 ' 诡 兰 论 
证 了 机 器 学 习 中 的 鲍德温 效应 ， 方 法 束 是 利用 遗传 算法 来 进化 神经 网 
络 结构 ， 并 观察 到 只 有 个 体 学 习 被 允许 时 ， 适 应 度 才 会 随时 间 增 加 。 


谁 学 得 最 快 ， 谁 就 会 属 


进化 寻求 好 的 结构 ， 而 神经 学 习 则 十 满 这 些 结构 : 这 样 的 结合 是 
我 们 走向 终 极 算法 最 简单 的 一 步 。 先 天 与 后 天 之 争 是 无 休止 的 波折 ， 
这 个 波折 持续 了 2500 年 ， 且 和 争论 会 越 来 越 激烈 ， 对 于 熟悉 这 一 点 的 人 
来 说 ， 这 可 能 束 像 一 个 惊 言 。 然 而 ， 通 过 计算 机 的 眼睛 来 看 待 生 命 能 
够 将 很 多 东西 进行 分 类 。“ 自 然 ? 对 计算 机 来 说 就 是 它 运 行 的 程序 ， 
而 “< 人工” 则 是 获取 的 数据 。“ 这 两 个 哪个 重要 ”这 样 的 问题 明显 有 点 充 
唐 。 没 有 程序 和 数据 ， 就 没有 输出 信息 ， 比 如 也 没有 这 样 的 说 法 : 
60% 的 输出 信息 由 程序 得 出 ， 男 外 的 40% 由 数据 得 出 。 熟 悉 机 右 学 
习 ， 会 让 你 摆脱 这 种 线性 思维 。 


另外 ， 你 也 许 想 知道 ， 都 到 这 总 了 ， 为 什么 我 们 还 没有 完成 目标 
呢 ? 如 果 我 们 把 目 然 的 两 个 主 算法 一 一 进化 和 大 脑 一 一 结合 起 来 ， 我 
们 当然 就 可 以 这 样 问 。 遗 憾 的 十 ， 目 前 我 们 只 是 大 概 知 道 目 然 如 何 学 
习 ， 对 许多 应 用 来 说 已 经 足够 ,但 对 于 真实 的 东西 来 说 ， 还 只 是 灰 蒙 
壹 的 有 影子。 例如， 胚胎 发 育 是 生命 的 重要 组 成 部 分 ， 但 在 机 右 学 习 
中 ， 殊 没有 和 及 胎 对 应 的 类 似 物 : “有机体 ”是 基因 组 非常 简单 的 功 
能 ， 而 我 们 可 能 名 视 了 重要 的 东西 。 男 一 个 原因 束 是 ， 即 使 已 经 弄 明 
日 目 然 如 何 学 习 ， 我 们 也 不 会 满足 。 一 方面 ， 这 个 过 程 太 绥 慢 。 进 化 


需要 数 十 亿 年 来 进行 学 习 ， 而 大 脑 需要 一 辈子 。 文 化 会 好 些 :我 可 以 
花 一 辈子 时 间 来 学 习 一 本 书 ， 而 你 可 以 几 个 小 时 把 它 读 完 。 但 学 习 算 
法 应 该 有 在 几 分 钟 或 几 秒 钟 内 掌握 知识 的 能 力 。 谁 学 得 快 ， 谁 就 赢 
了 ， 无论 是 加 快 进化 速度 的 鲍德温 效应 、 语 言 交 流 促进 人 类 的 学 习 效 
果 ， 还 是 计算 机 以 光 的 速度 发 现 模型 。 机 器 学 习 是 地 球 上 生命 之 间 况 
争 的 最 新 篇 章 ， 更 加 快速 的 硬件 只 是 等 式 的 一 边 ， 另 一 边 是 更 加 智能 
的 软件 。 


最 重要 的 征 ， 机 豆 学 习 的 目标 是 尽 可 能 找到 最 好 的 学 习 算 法 ， 利 
用 一 切 可 能 的 方法 ， 而 进化 和 大 脑 不 可 能 提供 学 习 算 法 。 进 化 的 产物 
有 很 多 明显 的 错误 。 例 如 ， 哺 乳 动 物 的 视觉 神经 和 视网膜 前 端 而 不 是 
后 端 相 连 ， 这 样 会 引起 不 必要 的 (而且 异乎 寻常 的 ) 言 点， 就 在 中 心 
凹 旁 边 ， 而 这 里 是 视觉 最 敏锐 的 地 方 。 活 细胞 的 分 子 生 物 学 原理 非常 
混乱 ， 分 子 生物 学 家 党 利和 目 固 道 ， 只 有 对 分 子 生物 学 一 点 也 不 仅 的 人 
才 会 相信 智能 设计 。 大 脑 的 构造 很 有 可 能 有 相似 的 错误 〈 大 脑 有 许多 
计算 机 没有 的 限制 ， 比 如 非常 有 限 的 短期 记忆 ) ， 而 且 没 有 理由 待 在 
这 些 限 制 里 。 另 外 ， 我 们 听 说 过 许多 这 样 的 情形 ， 人 类 似乎 坚持 做 错 
误 的 事情 ， 正 如 丹尼尔 ' 卡 尼 曼 在 他 的 书 《 思 考 ， 快 与 慢 》 里 详细 说 明 
的 那样 。 


与 联结 学 派 及 演化 新 论 者 相反 ， 符 号 学 派 和 贝 叶 斯 学 派 不 相信 “法 
目 然 ” 的 说 法 。 他 们 想 从 基本 原理 中 找 出 学 习 算 法 该 做 什么 ， 而 且 也 包 
括 我 们 人 人 类。 例如， 如 有 果 我 们 学 习 如 何 诊 断 冶 症 ， 殊 说 一 句 “ 这 就 古 目 
然 进 行 学 习 的 方法 ， 我 们 也 照 做 ”还 不 够 。 这 其 中 有 太 多 的 利害 关系 ， 
误 奔 的 代价 束 古 生命 。 医 生 应 该 尽 可 能 用 最 安全 的 方法 来 进行 诊断 ， 
这 些 方法 和 那些 数学 家 用 来 证 明定 理 的 方法 相似 ， 或 者 尽 可 能 接近 他 
们 能 掌控 的 水 平 《考虑 到 做 到 那样 严谨 有 点 不 太 可 能 ) 。 他 们 需要 权 
衡 证 据 ， 目 的 是 把 诊断 误差 降 到 最 小 ， 或 者 更 确切 地 说 ， 误 郑 的 代价 
越 大 ， 他 们 犯错 的 可 能 性 惑 越 小 〈 例 如 ， 未 能 找到 确实 存在 的 肿瘤 ， 


与 诊断 出 其 实 不 存在 的 肿瘤 相 比 ， 可 能 要 糟糕 很 多 ) 。 医 生 们 得 做 出 
最 优选 择 ， 而 不 是 表面 看 起 来 不 错 的 选择 。 


这 征 一 个 让 人 紧张 的 实例 ， 贯 穿 科学 和 心理 学 的 很 多 领域 : 是 描 
述 性 理论 与 规范 性 理论 之 间 的 分 收 ， 是 “这 就 古 它 的 样子 ”与 “这 吏 是 它 
应 该 成 为 的 样子 ?之 间 的 分 上 层 。 然 而 ， 符 号 学 派 和 贝 叶 斯 学 派 想 指出 ， 
弄 明日 “我 们 该 怎样 学 习 ? 也 可 以 帮助 我 们 了 解 人 类 如 何 学 习 ， 因 为 这 
两 者 大 概 不 会 完全 不 相关 〈 远 非 如 此 ) 。 特 别 指出 的 是 ， 对 于 生存 有 
重要 意义 、 已 经 经 历 很 长 一 段 时 间 进 化 的 行为 应 该 殉 是 最 优 的 。 我 们 
不 是 很 擅长 回答 关于 概率 的 书面 问题 ， 但 我 们 擂 长 快速 选择 手 和 手臂 
的 动作 来 击 中 目标 。 许 多 心理 学 家 已 经 使 用 符号 学 或 贝 叶 斯 的 模型 来 
解释 人 类 行为 的 方方面面 。 符 号 学 主导 了 认 知 心理 学 的 头 几 十 年 。 在 
20 世 纪 八 九 十 年 代 ， 联 结 主 义 着 占 文 配 地 位 ， 但 现在 贝 叶 斯 学 者 的 数 
量 正 在 上 升 。 


对 于 最 困难 的 问题 一 一 我 们 真 的 想 解 决 但 没 能 解决 的 问题 ， 例 
如 ， 治 钝 癌症 的 问题 一 一 纯粹 受到 上 自然 局 发 的 方法 要 成 功 可 能 太 无 
知 ， 即 使 给 定 大量 的 数据 也 还 是 如 此 。 原 则 上 ， 我 们 可 以 掌握 细胞 新 
陈 代谢 网 络 的 完整 模型 ， 方 法 就 是 结合 结构 研究 ， 利 用 或 者 不 利用 交 
又 ， 通 过 反 回 传播 来 进行 参数 学 习 ， 但 有 太 多 不 利 的 局 部 最 优 陷阱 。 
我 们 得 利用 更 大 块 的 数据 来 进行 推理 ， 根 据 需 要 集合 或 重新 集合 这 些 
数据 ， 然 后 利用 闻 向 演绎 来 填补 空缺 。 要 让 这 样 的 目标 来 引导 我 们 的 
学 习 行 为 :以 最 优 方 法 诊断 瘤 症 ， 然 后 找到 治疗 癌症 的 最 佳 药 物 。 


最 优 学 习 征 贝 叶 斯 学 派 的 中 心目 标 ， 而 且 他 们 肯定 目 己 已 经 找到 
了 实现 这 个 目标 的 方法 。 请 看 这 里 .…… 
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囊 八 囊 
贝 叶 斯 学 派 : 在 贝 叶 期 教 笔 里 


夜幕 降临 ， 大 教堂 的 影子 也 渐渐 变 大 。 光 线 从 教堂 的 彩色 玻璃 窗 
倾 海 而 出 ， 在 大 街 上 及 远 处 的 建筑 上 投 映 出 复杂 的 公式 。 当 你 走 近 
时 ， 会 听 到 人 们 在 里 面 唱 圣 歌 的 声音 。 唱 的 好 像 是 拉丁 语 ， 又 好 像 和 
数学 有 关 ， 但 你 耳 示 里 的 巴 别 鱼 把 它 翻译 成 英文 : “转动 曲柄 ! 转动 曲 
柄 ! ”正当 你 迈进 去 时 ， 圣 歌 渐渐 转化 成 声 声 满意 的 “ 啊 ” 以 及 “后 面 ， 
后 面 ”的 呢 哺 。 你 罕 过 人 群 。 圣 坛 上 蕊 了 立 着 一 块 巨 大 的 石碑 ， 上 面 刻 着 
10 英 尺 宽 字 母 拼写 成 的 公式 : 


P (A|B)=P (A)P (8B|A)/P (B) 


当 你 不 解 地 盯 关 这 个 公式 看 的 时 候 ， 合 歌 眼 镜 起 作用 了 ， 它 内 了 
一 下 ， 说 :“ 贝 叶 斯 定理 。” 这 时 人 群 开始 唱 : “再 多 些 数 据 ! 再 多 些 数 
据 ! ”大 量 的 祭 品 正 被 无 情 地 推 辣 祭 坛 。 突 然 ， 你 意识 到 目 己 苹 祭 品 中 
的 一 个 ， 但 已 经 太 晚 了 。 当 曲柄 转 到 你 上 方 时 ， 你 喊 着 : “不 ! 我 不 想 
变 成 数据 点 ! 放 开 我 啊 ! ” 


你 醒 来 时 浑身 冷汗 。 放 在 你 大 腿 上 的 ， 是 一 本 名 为 《终极 算法 》 
的 书 。 甩 掉 亚 梦 之 后 ， 你 接着 从 中 断 的 地 方 往 下 读 。 


统治 世界 的 定理 


通 往 最 优 学 习 的 路 径 始 于 一 个 公式 ， 这 一 点 许多 人 都 听 说 过 : 贝 
叶 斯 定理 。 但 在 这 里 ， 我 们 会 以 全 新 的 眼光 来 看 得 这 个 公式 ， 而 且 会 
意识 到 ， 它 的 力量 要 比 你 根据 其 日 党 用 途 猜 测 的 要 大 得 多 。 本 质 上 ， 
贝 叶 斯 定理 不 仅仅 是 一 个 简单 的 规则 ， 当 你 收 到 新 的 论据 时 ， 它 用 来 
改变 你 对 某 个 假设 的 信任 度 : 如 果 论 据 和 假设 一 致 ， 假 设 成 立 的 概率 
上 上 升 ， 肥 之 则 下 降 。 例 如 ， 如 果 你 查 出 艾滋 病 病毒 呈 阳 性 ， 你 感染 艾 
滋 病 的 可 能 性 上 升 。 当 你 获得 许多 条 论据 ， 例 如 ， 多 重 测试 的 结 
时 ， 事 情 束 会 变 得 更 有 意思 。 为 了 将 所 有 论据 结合 起 来 ， 又 免 遭 组 合 
爆炸 之 否 ， 我 们 就 得 把 猜想 简化 。 当 我 们 同时 考虑 多 个 假设 ,例如 ， 
一 个 病人 所 有 不 同 、 可 能 的 诊断 时 ， 事 情 也 会 变 得 更 有 意思 。 在 合理 
时 期 内 ， 根 据 病 人 的 症状 来 计算 每 种 疾病 发 生 的 可 能 性 需要 很 大 的 智 
功 。 一 旦 知道 如 何 来 完成 所 有 这 些 事情 ， 我 们 融 做 好 了 学 习 贝 叶 斯 方 
法 的 准备 。 对 于 贝 叶 斯 学 派 来 说 ， 学 习 “ 仅 仅 是 ” 贝 叶 斯 定理 的 另外 一 
个 运用 ， 将 所 有 模型 当 作假 设 ， 将 数据 作为 论据 : 随 着 你 看 到 的 数据 
越 来 越 多 ， 有 些 模型 会 变 得 越 来 越 有 可 能 性 ， 而 有 些 则 相反 ， 直 到 理 
想 的 模型 渐渐 突出 ， 成 为 最 终 的 胜 者 。 贝 叶 斯 学 派 已 经 发 明 出 非常 灵 
活 的 模型 。 下 面 我 们 惑 开始 来 了 解 它 们 。 


托马斯 ' 贝 时 斯 是 一 位 18 世 纪 的 英国 牧师 ， 当 时 他 并 没有 发 觉 目 己 
会 成 为 新 宗教 的 中 心 。 你 可 能 很 想 问 怎么 会 这 样 ， 但 注意 到 这 也 发 生 
在 耶稣 映 上 后 ， 束 不 会 这 样 问 了 : 我 们 知道 ， 基 督 教 古 由 圣 : 保 罗 开 创 
的 ， 虽 然 耶 稣 把 目 己 看 作 犹 太 教 的 顶峰 。 同 样 ， 我 们 知道 贝 叶 斯 主义 
征 由 皮 埃 尔 -西蒙 : 拉 普 拉 斯 创造 的 ， 他 十 比 贝 叶 斯 晚 生 50 年 的 法 国 
人 。 贝 叶 斯 是 第 一 个 描述 用 新 方法 来 考虑 概率 的 牧师 ， 但 把 那些 想法 
变 成 定理 ， 并 以 贝 时 斯 的 名 字 来 命名 的 人 ， 却 是 拉 普 拉 斯 。 


拉 普 拉 斯 是 史上 节 伟 大 的 数学 家 之 一 ， 天 于 他 ， 人 们 知道 最 多 的 
可 能 整 古 他 对 于 牛顿 学 说 决定 论 的 懂 悍 : 


在 任何 给 定 的 一 瞬间 ， 如 采 有 某 位 智者 能 够 洞悉 所 有 文 配 目 然 
界 的 力 和 组 成 自然界 的 物体 的 相互 位 置 ， 并 且 这 位 智者 的 状 慧 足以 
对 这 些 数据 进行 分 析 ， 他 束 能 用 一 个 相同 的 公式 来 概括 宇宙 中 最 大 
的 天 体 和 最 小 的 原子 的 运动 。 对 这 样 的 智者 来 说 ， 没 有 什么 是 不 确 
定 的 ， 未 来 同 过 去 一 样 都 历历 在 目 。 


这 看 起 来 有 点 讽刺 的 意味 ， 因 为 拉 普 拉 斯 也 是 概率 论 的 创始 人 之 
一 ， 而 他 认为 概率 论 仅仅 是 种 可 简化 为 计算 的 音 识 。 他 对 于 概率 的 探 
索 本 质 上 古 对 于 休 谍 问题 的 专注 。 例 如 ， 我 们 怎么 知道 明天 太阳 会 升 
起 ? 太阳 每 天 都 会 升 起, 今天 也 是 ,但 没有 什么 能 够 保证 它 会 继续 升 
起 。 拉 普 拉 斯 的 回答 有 两 个 部 分 。 第 一 部 分 是 我 们 当今 所 谓 的 “无 差别 
原则 ”， 或 者 “理由 不 充分 原则 ”。 有 一 天 我 们 醒 来 ， 比 如 这 时 正 是 时 间 
的 起 感 ， 对 于 拉 普 拉 斯 来 说 则 是 大 概 5000 年 前 ， 经 历 一 个 美妙 的 下 午 
之 后 ， 我 们 看 到 太阳 下 山 了 。 它 还 会 出 现 吗 ? 我 们 还 没有 看 到 过 日 
出 ， 所 以 也 就 没有 特殊 理由 认为 它 会 或 者 不 会 再 升 起 。 因 此 我 们 应 该 
考虑 两 种 情形 出 现 的 可 能 性 相等 ， 认 为 太阳 还 会 再 升 起 的 可 能 性 是 一 
半 。 但 是 ， 拉 普 拉 斯 接着 推断 ， 如 采 过 去 能 指导 未 来 的 一 切 ， 因 为 太 
阳 每 天 都 会 升 起 ， 这 应 该 会 让 我 们 更 加 坚信 太阳 会 继续 升 起 。5000 年 
过 后 ， 明 天 的 太阳 还 会 升 起 的 概率 应 该 接近 1， 但 不 完全 是 ， 因 为 我 们 
不 能 完全 肯定 。 了 由 这 个 思维 实验 ， 拉 普 拉 斯 导出 他 所 谓 的 “接续 法 
则 »”， 该 法 则 用 于 估算 太阳 升 起 n 次 后 会 再 次 升 起 的 概率 ， 表 示 为 

(n+1) / (n+2) 。 当 n=0 时 ， 这 个 概率 为 /2， 随 着 n 增 加 ， 概 率 也 会 
增加 ， 当 mn 接近 无 穷 大 时 ， 概 率 接近 1 。 


这 个 法 则 由 一 个 更 为 通用 的 原则 推导 得 出 。 假 设 你 半夜 在 一 个 阳 
生 的 星球 上 醒 来 。 虽 然 你 能 看 到 的 只 是 老 星 闪烁 的 天 空 ， 你 有 理由 相 
信 太 阳 会 在 某 个 时 间 点 升 起 ， 因 为 多 数 星球 会 目 传 并 绕 着 目 己 的 太阳 
转 。 所 以 你 估计 相应 的 概率 应 该 会 大 于 1/2 (比如 说 2/3) 。 我 们 将 其 称 
为 太阳 会 升 起 来 的 “ 先 验 概率 "， 因 为 这 发 生 在 看 到 任何 证 据 之 前 。“ 先 
验 概率 ”的 基础 并 不 是 数 过 去 这 个 星球 上 太阳 升 起 的 次 数 ， 因 为 过 去 你 


没有 看 到 ;， 它 反映 的 是 对 于 将 要 发 生 的 事情 ， 你 优先 相信 的 东西 ， 这 
建立 在 你 掌握 的 宇宙 常识 之 上 。 但 现在 星星 开始 渐渐 暗淡 ， 所 以 你 对 
于 太阳 会 升 起 的 信心 越 来 越 强 ， 这 建立 于 你 在 地 球 上 生存 的 经 历 之 
上 。 你 的 这 种 信心 源 目 “后 验 概 率 "， 因 为 这 个 概率 是 在 看 到 一 些 证 据 
后 得 出 的 。 天 空 开 始 渐 渐变 亮 ， 后 验 概率 又 变 得 更 大 了 。 最 终 ， 太 阳 
银色 的 大 圆 盘 出 现在 地 乎 线 上 方 ， 而 且 可 能 正如 《 鲁 拜 集 》 的 开篇 间 
分 揪 写 的 那样 ， 套 中 了 “苏丹 的 塔 尖 ”。 除 非 你 产生 幻觉 ， 现 在 太阳 走 
否 会 升 起 还 不 确定 。 


问题 的 关键 是 ， 随 着 你 看 到 的 证 据 越 来 越 多 ， 后 验 概率 应 该 如 何 
演变 ， 管 案 束 在 贝 叶 斯 定理 里 面 。 我 们 可 以 根据 因 采 关系 来 考虑 这 个 
问题 。 日 出 使 星星 渐渐 褪去 光 储 ， 天 空 变 守 ,但 后 者 更 能 证 明 黎 明 的 
到 来 ， 比 如 因为 星星 也 有 可 能 在 深夜 时 分 ， 因 为 筋 气 笼 香 而 渐渐 仿 去 
光 亡 。 所 以 看 到 天 空 变 之 和 看 到 星星 银 去 光臣 相 比 ， 前 者 更 能 预示 太 
阳 升 起 的 可 能 性 。 在 数学 符号 中 ， 我 们 说 P〈 日 出 | 天 空 渐渐 发 
亮 ) ， 即 天 空 渐渐 发 亮 时 日 出 的 条 件 概 率 ， 比 P (日 出 | 星星 渐渐 褪 
去 光芒 ) ， 即 星星 寝 去 光芒 时 日 出 的 条 件 概 率 要 大 。 根 据 贝 叶 斯 定 
理 ， 给 定 某 原因 时 出 现 某 结果 的 可 能 性 越 大 ， 那 么 出 现 该 结果 是 该 原 
因 引 起 的 概率 也 会 越 大 ， 如 果 P (天 空 渐 渐 发 亮 | 日 出 ) 比 P (星星 渐 
渐 禄 去 光芒 | 日 出 ) 要 大 ， 也 许 是 因为 有 些 星球 距离 太阳 足够 远 ， 那 
些 星星 在 日 出 之 后 仍 会 发 光 ， 那 么 P (日 出 | 天 空 渐 渐 发 亮 ) 也 比 P 

(日 出 | 星星 渐渐 褪去 光芒 ) 要 大 。 


然而 ， 情 况 并 非 完 全 如 此 。 如 果 我 们 观察 一 个 即使 没有 该 原因 也 
会 发 生 的 结果 ， 那 么 能 肯定 的 是 ， 该 原因 的 证 据 力 不 足 。 贝 叶 斯 通过 
以 下 句子 概况 了 这 一 点 : P (原因 | 结果 ) 随 着 P (结果 ) ， 即 结果 的 
先 验 概率 (也 就 是 在 原因 不 明 的 情况 下 结果 出 现 的 概率 ) 的 下 降 而 下 
降 。 最 终 ， 其 他 条 件 不 变 ， 一 个 原因 有 古 前 验 的 可 能 性 越 大 ， 它 该 成 为 
后 答 的 可 能 性 整 越 大 。 绿 上 所 述 ， 贝 叶 斯 定理 认为 : 


P (原因 | 结果 ) =P (原因 ) xP (结果 | 原因 ) /P (结果 ) 


用 A 代 礁 原因 ， 用 B 代 莅 结果 ， 然 后 为 了 简洁， 把 乘法 符号 删 挥 ， 
你 就 会 得 到 大 教 符 上 那个 用 10 英 矿 宽 的 字母 书写 的 公式 。 


这 仅仅 是 定理 的 一 个 表述 ， 当 然 还 不 能 作为 证 据 。 但 让 人 惊讶 的 
是 ， 证 据 十 分 简单 。 我 们 可 以 用 医学 诊断 中 的 一 个 例子 来 阐明 ， 也 就 
是 贝 叶 斯 推理 的 “杀手 级 应 用 ”之 一 。 假 设 你 是 一 位 医生 ， 上 个 月 已 经 
为 100 名 病人 进行 诊断 。 其 中 的 14 名 病人 患 流 感 ，20 名 发 烧 ，11 名 既 感 
冒 也 发 烧 。 因 此 感冒 的 人 群 中 有 发 烧 的 病人 的 条 件 概率 为 1/14。 设 立 
条 件 缩小 了 我 们 正在 考虑 的 集合 ， 在 这 个 例子 中 ， 所 有 病人 的 范围 就 
缩小 为 患 有 流感 的 病人 。 在 所 有 病人 的 集合 中 ， 发 烧 的 概率 是 
20/100; 而 在 感冒 病人 的 集合 中 ， 发 烧 的 概率 则 是 11/14。 病 人 既 发 伐 
又 感冒 的 概率 ， 是 患 感冒 病人 的 概率 乘 以 发 烧 病 人 的 概率 : 


P (感冒 ， 发 烧 ) =P (感冒 ) xP (发 烧 | 感冒 ) =14/100 
x11/14=11/100 


但 我 们 可 以 倒 过 来 计算 : 

P (感冒 、 发 烧 ) =P (发 烧 ) xP (感冒 | 发 烧 ) 
因此 ， 因 为 它们 都 等 于 P (感冒 、 发 烧 ) ， 
P (发 烧 ) xP (感冒 | 发 烧 ) =P (感冒) xP (发 烧 | 感冒 ) 
两 边 都 除 以 P (发 烧 ) ， 你 会 得 到 
P (感冒 | 发 烧 ) =P (感冒 ) xP (发 烧 | 感冒 ) /P (发 烧 ) 


忠 是 这 样 ! 这 束 是 贝 叶 斯 定理 ， 感 冒 是 原 


加 


， 发 烧 是 结果 。 


事实 证 明 ， 人 类 并 不 是 很 擅长 贝 叶 斯 推理 ， 至 少 涉及 文字 推理 的 
时 候 是 这 样 的 。 问 题 在 于 我 们 倾 同 于 忽略 原因 的 移 验 概率 。 如 果 你 的 
艾 洲 病 病毒 检测 芋 阳 性 ， 而 检测 的 假 阳 性 只 有 19%， 你 会 觉得 恕 民 吗 ? 
乍 一 看 ， 这 时 你 患 有 艾 汶 病 的 概率 是 99%。 呀 ! 可 是 让 我 们 冷静 一 
下 ， 一 步 一 步 用 贝 叶 斯 定理 来 推导 这 个 概率 : 


P (HIV | 阳性 ) =P (HIV) xP (阳性 | HIV) 


P (HIV) 是 HIV 在 普通 人 群 中 的 感染 流行 率 ， 在 美国 这 个 概率 约 
为 0.39%。P (阳性 ) 是 化 验 结果 显示 你 是 否 患 有 艾滋 的 概率 ， 我 们 假 
设 这 个 概率 是 1%。 那 么 P (HIV | 阳性 ) =0.003x0.99/0.01=0.297。 这 
和 0.99 有 很 大 的 差别 ! 因为 HIV 在 普通 人 群 中 较为 少见 。 化 验 结果 为 阳 
性 ， 这 样 你 感染 艾滋 病 的 概率 会 增加 两 个 数量 级 ， 但 这 些 概率 还 是 低 
于 50%。 如果 你 的 化 验 结果 为 HIV 阳 性 ， 接 下 来 的 准确 做 法 是 保持 冷 
静 ， 然 后 做 另外 更 加 确切 的 检查 。 检 查 结果 很 有 可 能 是 你 没事 。 


贝 叶 斯 定理 之 所 以 有 用 ， 是 因为 通常 给 定 原因 后 ， 我 们 整 会 知道 
结果 ， 但 我 们 想 知 道 的 是 已 知 结 采 ， 如 何 找 出 原因 。 例 如 ， 我 们 知道 
感冒 病人 发 属 的 概率 ， 但 真正 想 知 道 的 是 ， 发 损 病 人 官 感冒 的 概率 是 
多 少 。 贝 叶 斯 定理 让 我 们 由 原因 推出 结果 ， 又 由 结果 知道 原因 ， 但 其 
重要 性 远 非 如 此 。 对 于 贝 叶 斯 定理 的 信仰 着 来 说 ， 这 个 伪 猴 起 来 的 公 
式 其 实 是 机 器 学 习 中 的 F=ma 等 式 ， 很 多 结论 和 应 用 都 是 在 这 个 等 式 的 
基础 上 得 出 的 。 而 且 无 论 终极 算法 是 什么 ， 它 肯定 "仅仅 ?是 贝 叶 斯 定 
理 的 一 个 算法 应 用 。 我 之 所 以 给 “仅仅 ?加 了 双 引 号 ， 是 因为 对 于 几乎 
所 有 简单 的 问题 来 说 ， 在 计算 机 上 面 应 用 贝 叶 斯 定理 非常 困难 ， 接 下 
来 ， 我 们 就 会 知道 原因 。 


贝 叶 斯 定理 作为 统计 学 和 机 器 学 习 的 基础 ， 受 到 计算 难题 和 巨大 
争论 的 困扰 。 你 想 知道 原因 也 情 有 可 原 ， 这 不 就 是 我 们 之 前 在 感冒 的 
例子 中 看 到 的 那样 ， 贝 叶 斯 定理 是 由 条 件 概 率 概念 得 出 的 直接 结 
吗 ? 的 确 ， 公 式 本 身 没有 什么 问题 。 争 议 存 于 相信 贝 叶 斯 定理 的 人 怎 


么 知道 推导 该 定理 的 各 个 概率 ， 以 及 那些 概率 的 侣 义 是 什么 。 对 于 多 
数 统计 学 家 来 说 ， 估 算 概 率 的 唯一 有 效 方法 就 古 计算 相应 事件 发 生 的 
频率 。 例 如 ， 感 冒 的 概率 是 0.2， 因 为 被 观察 的 100 名 病人 中 ， 有 20 名 
发 燥 了 。 这 是 “频率 论 ” 对 于 概率 的 解释 ， 统 计 学 中 占据 主导 地 位 的 学 
派 束 古 由 此 来 命名 的 。 但 请 注意 ， 在 日 出 的 例子 以 及 拉 普 拉 斯 的 无 差 
别 原 则 中 ， 我 们 会 做 点 不 一 样 的 事 : 千方百计 找到 方法 算出 概率 。 到 
确 有 什么 正当 的 理由 ， 能 够 假设 太阳 升 起 的 概率 是 /2、2/3， 或 者 别 的 
呢 ? 贝 叶 斯 学 派 的 回答 是 : 概率 并 非 频 率 ， 而 是 一 种 主观 程度 上 的 信 
任 。 因 此 ， 用 概率 来 做 什么 由 你 决定 ， 而 贝 叶 斯 推理 让 你 做 的 事 束 
是 : 通过 新 证 据 来 修正 你 之 前 相信 的 东西 ， 得 到 后 来 相信 的 东西 (也 
被 人 们 称 为 “转动 贝 叶 斯 手柄 *”) 。 贝 叶 斯 学 派对 此 观点 的 忠实 近乎 虑 
诚 ， 足 以 经 得 住 200 年 的 攻击 和 计算 。 计 算 机 已 经 强大 到 足以 做 贝 叶 斯 
推理 ， 且 在 大 数据 的 辅助 下 ， 它 们 开始 占据 上 风 。 


所 有 模型 都 是 错 的 ， 但 有 些 却 有 用 


实际 上 ， 医 生 不 会 仅 攒 发烧 束 断 定 病人 感冒 了 ， 他 会 考虑 所 有 的 
证 状 ， 包 括 病人 是 否 咳嗽 、 喉 嘴 痛 、 流 眶 涕 、 头 疼 、 发 冷 等 。 所 以 我 
们 真正 要 算 的 是 P (感冒 | 咳嗽 、 喉 晓 痛 、 流 鼻涕 、 头 疼 、 发 
冷 .…..) 。 通 过 贝 叶 斯 定理 ， 我 们 知道 这 和 P (咳嗽 、 喉 哎 痛 、 流 锚 
0 | 感冒 ) 成 正比 。 但 现在 ， 我们 过 到 一 个 问题 : 
我 们 该 如 何 估 算 这 个 概率 ? 如 果 每 个 症状 束 是 一 个 布尔 变量 (你 要 么 
有 这 个 症状 ， 要么 没有 ) ， 医 生 要 考虑 mn 个 症状 ， 那 么 病人 就 可 能 有 2m 
种 症状 的 组 合 。 假 设 我 们 有 20 种 证 状 以 及 1 万 个 病人 的 信息 数据 库 ， 那 
么 我 们 现在 看 到 的 仅仅 是 近 100 万 种 可 能 组 合 中 的 一 小 部 分 。 更 糟 的 
征 ， 为 了 准确 估算 某 个 特定 组 合 出 现 的 概率 ， 我 们 对 该 组 合 的 观察 次 
数 应 至 少 为 几 十 次 ， 这 意味 着 数据 库 需 包含 几 生 万 个 病人 的 信息 。 再 
男 外 增加 10 种 症状 ， 我 们 需要 病人 的 数量 束 会 超过 地 球 上 的 人 口 数 。 


如 果 有 100 种 症状 ， 即 使 我 们 能 魔法 般 地 得 到 数据 ， 那 么 世上 所 有 的 硬 
盘 也 没有 足够 的 空间 来 存储 所 有 的 概率 。 而 且 如 采 病 人 来 到 医院 ， 病 
人 症状 的 组 合 我 们 从 未 遇 到 过 ， 那 么 我 们 殊不知 该 如 何 对 其 进行 诊 
断 。 这 时 我 们 束 与 答 政 再 次 交锋 组 合 爆炸 问题 。 


因此 ， 我 们 就 照 着 生活 中 常 发 生 的 那样 做 ， 妥协 。 我 们 做 简化 的 

假设 来 减少 概率 的 数量 ， 这 些 概率 的 数量 由 我 们 估算 而 来 ， 且 我 们 可 
以 掌控 。 一 个 很 简单 且 受 人 退 捧 的 假设 束 是 ， 在 给 定 原因 的 情况 下 ， 
所 有 的 结果 都 相互 独立 。 例 如 ， 假 如 我 们 知道 你 感冒 了 ， 0 
改变 你 也 咳嗽 的 可 能 性 。 从 数学 的 角度 讲 ， 也 就 是 说 ，P (发 烧 、 
嗽 | 感冒 ) 仅 相 当 于 P (发 烧 | 感冒 ) xP (咳嗽 | 感冒 ) 。 你 用 : 
些 概率 中 的 每 一 个 都 可 以 通过 少量 次 数 的 观察 得 到 。 其 实 ， 在 前 文 ， 
我 们 就 这 样 得 到 过 病人 人 发烧 的 概率 ， 且 咳嗽 和 其 他 症状 的 概率 的 算法 
但 并 无 一 你 那么 我 们 需要 观 和 察 的 次 数 束 不 会 随 着 症状 数 的 增多 而 呈 
指数 增长 了 ， 实 际 上 ， 观 察 次 数 不 会 再 增长 。 


请 广 意 : 我 们 只 二 说 你 在 感冒 的 前 担 下 ， 发 烧 和 咳嗽 是 相互 独立 
的 ， 但 并 不 是 所 有 情况 都 如 此 。 很 明显 ， 如 采 我 们 不 知道 你 有 没有 感 
冒 ， 那 么 发 烧 和 咳嗽 则 有 很 大 关系 ， 因 为 如 采 你 已 经 发 烧 了 ， 那 你 很 
有 可 能 会 咳嗽 。P (发 烧 、 咳 嗽 ) 不 等 于 P (发 烧 ) xP (咳嗽 ) 。 我 们 
现在 说 的 是 ， 如 有 果 我 们 知道 你 感冒 了， 那么 知道 你 是 否 发 烧 ， 并 不 会 
让 我 们 更 容易 知道 你 是 否 会 咳嗽 。 同 样 ， 如 果 你 不 知道 太阳 要 升 起 来 
了 ， 而 且 你 看 到 星星 渐 暗 了 ， 那 么 你 束 玩 加 肯定 天 空 会 变 亮 ,但 如 果 
你 知道 太阳 即将 升 起， 那么 看 到 星星 渐 蜡 吏 没 有 什么 影响 了 。 


请 再 次 注意 .多亏 贝 叶 斯 定理 ， 我 们 才 掌 握 这 个 甸 | ]。 如 有 果 我 们 
想 直 接 估算 P (感冒 | 全 咳嗽 等 ) ， 假 如 不 利用 定理 先 将 其 转化 
成 P (发 烧 、 咳 嗽 等 | 居 ， 那 么 我 们 束 还 需要 指数 数量 的 概率 ， 
每 个 组 合 的 症状 ye 都 有 一 个 概率 。 


如 果 学 习 算 法 利用 贝 叶 斯 定理 ， 且 给 定 原 因 时 ， 假 定 结果 相互 独 
立 ， 那 么 该 学 习 算 法 被 称 为 “朴素 贝 叶 斯 分 类 絮 ”。 因为 这 是 一 个 很 村 
素 的 猜想 。 实 际 上 ， 发 烧 会 增加 咳嗽 的 可 能 性 ， 即 使 你 知道 目 己 感冒 
了 ， 因 为 ( 举 个 例子 ) 发 烧 会 让 你 得 重 感冒 的 可 能 性 增 大 。 但 机 器 学 
习 束 古 会 做 错误 猜想 的 技术 ， 而 它 叉 能 伐 幸 逃 胶 。 正 如 统计 学 家 乔治 : 
博克 斯 说 的 一 句 很 有 名 的 话 那 样 :“ 所 有 的 模型 都 是 错 的 ， 但 有 些 却 有 
用 。? 虽 然 一 个 模型 过 于 简化 ， 但 你 有 足够 的 数据 用 来 估算 那 瓯 比 没有 
数据 的 完美 模型 要 好 。 令 人 府 异 的 是， 有 些 模型 错误 百出 ， 同 时 又 很 
有 有 用。 经济 学 家 弥 尔 顿 : 弗 里 德 曼 甚至 在 一 篇 很 有 影响 力 的 文章 中 提 
出 ， 节 有 说 服 力 的 理论 往往 受到 最 大 程度 的 简化 ， 只 要 这 些 理论 所 做 
的 预测 是 准确 的 ， 因 为 它们 用 最 简洁 的 方法 解释 最 复杂 的 问题 。 这 对 
于 我 来 说 殉 像 极 远 处 的 一 座 桥 ， 但 它 曾 明 : 与 爱 因 斯 坦 的 名 言 相 停 ， 
至 少 可 以 这 么 说 ， 科 学 往往 通过 尽 可 能 简化 事物 来 取得 进步 。 


没有 人 能 肯定 是 谁 发 明了 朴素 贝 叶 斯 算法 。 在 1973 年 的 一 本 模式 
识别 教科 书 中 ， 它 被 提 到 过 ， 当 时 并 未 注 明 出 处 ， 但 它 真 正 流行 起 来 
征 在 20 世 纪 90 年 代 ， 那 时 研究 人 员 惊 喜 地 发 现 ， 它 很 多 时 候 比 许多 更 
为 复杂 的 学 习 算 法 还 要 准确 。 那 时 我 还 是 一 名 研究 生 ， 而 当 我 终于 决 
定 把 朴素 贝 叶 斯 法 纳入 我 的 实验 时 ， 我 震惊 地 发 现 目 己 很 茸 运 ， 除 了 
那个 我 运用 到 论文 中 的 算法 ， 它 比 所 有 我 用 来 与 之 对 比 的 算法 都 要 有 
用 ， 否 则 我 可 能 也 不 会 在 这 里 了 。 


朴素 贝 叶 斯 法 如 今 应 用 得 很 广泛 。 例 如 ， 它 是 许多 垃圾 邮件 过 泪 
器 的 基础 。 而 这 一 切 开始 于 大 卫 . 赫 克 曼 (一 位 卓越 的 贝 叶 斯 研究 员 ， 
同时 也 是 一 名 医生 ) ， 想 到 将 垃圾 邮件 当 作 疾病 ， 疾 病 的 症状 就 相当 
于 邮件 中 的 文字 : “伟哥 "是 一 种 症状 , “免费 > 也是， 但 你 最 好 朋友 的 
姓 可 能 会 暗示 这 是 一 封 合法 邮件 。 那 么 我 们 就 可 以 利用 朴素 贝 叶 斯 法 
来 将 邮件 分 为 垃圾 邮件 和 非 垃圾 邮件 了 ， 只 要 垃圾 邮件 制造 者 通过 随 
机 选 词 来 生成 邮件 。 当 然 ， 这 是 一 个 荒 廖 的 假设 ， 只 有 当 句子 没有 名 
法 和 内 容 时 ， 它 才 正确 。 但 那个 夏天 ， 远 赫 兰 . 沙 哈 和 一 位 斯 坦 福 大 学 


的 毕业 生 在 微软 研究 院 实习 时 ， 曾 对 该 假设 进行 过 和 莹 试 ， 且 效果 很 
好 。 当 比尔 : 盖 欧 问 赫 克 曼 起 会 如 此 时 ， 他 指出 为 了 识别 垃圾 邮件 ， 你 
不 必 理 解 信息 的 细节 ， 只 要 通过 邮件 包含 的 词语 来 获得 邮件 的 主旨 丈 
可 以 了 。 


一 个 基本 的 搜索 引擎 也 会 利用 与 朴素 贝 时 斯 法 极 相似 的 算法 来 决 
定 显示 哪些 页 面 来 回应 你 的 搜索 。 主 要 的 区 别 在 于 : 它 会 预测 相关 或 
非 相 关 ， 而 不 是 垃圾 邮件 或 非 垃 圾 邮件 。 运 用 朴素 贝 叶 斯 法 来 解决 预 
测 问题 的 例子 几乎 数不胜数 。 彼 得 . 诸 尔 维 格 (谷歌 的 研究 主任 一度 
告诉 我 ， 这 有 是 谷歌 应 用 最 为 广泛 的 算法 ， 谷 歌 的 机 融 学 习 在 每 个 角落 
都 利用 了 该 算法 的 功能 。 为 什么 朴素 贝 叶 斯 法 会 在 谷歌 员工 中 流行 起 
来 ? 这 个 问题 不 难 回答 。 除 了 惊人 的 准确 度 ， 它 的 测量 能 力也 很 强 。 
学 习 朴 素 贝 时 斯 分 类 需 的 原理 ， 也 仅 相 当 于 数 出 每 个 属性 与 每 个 类 别 
出 现 的 次 数 ， 花 的 时 间 不 比 从 硬盘 读 取 数 据 的 时 间 长 。 


可 以 半 开 玩笑 地 说 ， 你 甚至 可 以 比 谷歌 员工 更 大 范围 地 利用 朴 勾 
贝 叶 斯 法 : 对 整个 宇宙 进行 模拟 。 的 确 ， 如 果 你 相信 全 能 的 上 帝 ， 那 
么 你 可 以 将 宇宙 模拟 成 一 个 巨大 的 朴 聂 贝 叶 斯 法 分 布点 ， 这 里 发 生 的 
每 件 事 都 是 在 上 帝 的 意愿 下 独立 发 生 的 。 当 然 ， 值 得 注意 的 是 ， 我 们 
不 知道 上 帝 在 想 什 么 ， 但 在 第 八 草 我 们 会 分 析 ， 如 何在 即使 不 知道 例 
子 类 别 的 情况 下 ， 掌 握 朴素 贝 叶 斯 模型 。 


起 初 看 起 来 可 能 不 古 这 样 ， 但 朴素 贝 叶 斯 法 与 感知 右 算 法 密切 相 
天 。 感 知 器 增加 权 值 ， 而 朴素 贝 叶 斯 法 则 增加 概率 ， 但 如 采 你 选中 一 
种 算法 ， 后 者 会 转化 成 前 者 。 两 者 都 可 以 概括 成 “如 有 果 .…... 那 
么 .…..” 的 简单 规则 ， 这 样 每 个 先例 都 会 多 多 少 少 体现 在 结果 中 ， 而 不 
是 在 结果 中 “全 有 或 全 无 ”。 这 仅仅 是 暗 指 主 算法 的 学 习 算 法 中 关联 较 
为 深入 的 例子 。 你 也 许 并 没有 有 意识 地 去 了 解 贝 叶 斯 定理 (那么 ， 你 
现在 意识 到 了 ) ， 但 在 某 种 程度 上 ， 你 大 脑 中 数 百 亿 神经 元 中 的 每 一 
个 都 是 贝 叶 斯 定理 的 微小 实例 。 


在 看 新 闻 时 ， 朴 素 贝 叶 斯 法 是 学 习 算法 可 以 利用 的 展 好 概念 模 
型 : 它 可 以 捕获 输入 与 输出 之 间 两 两 相关 的 关系 ， 这 对 于 理解 将 学 习 
算法 引用 到 新 事件 中 很 有 必要 。 但 是 机 器 学 习 也 不 仅仅 和 两 两 相关 天 
系 有 关 ， 当 然 ， 正 如 大 脑 不 仅仅 包含 一 个 神经 元 一 样 。 当 我 们 寻找 更 
为 复杂 的 模型 时 ， 真 正 的 行动 才刚 刚 开 始 。 


从 《 尤 金 - 奥 涅 金 》 到 Siri 


1913 年 第 一 次 世界 大 战 前 夕 ， 俄 国 数 学 家 安 德 烈 -马尔 可 夫 发 表 了 
一 篇 文章 ， 将 所 有 事情 的 概率 运用 到 诗歌 当中 。 诗 中 ， 他 模仿 俄国 文 
学 的 经 典 : 普 硕 金 的 《 尤 金 . 奥 涅 金 》， 运 用 了 当今 我 们 所 说 的 “马尔 
可 夫 链 ”。 他 没有 假定 每 个 字母 都 是 随机 产生 的 ， 与 剩 下 的 过 无 关联 ， 
而 是 最 低 限 度 引 入 了 顺序 结构 : 他 让 每 个 字母 出 现 的 概率 由 在 它 之 
前 、 与 它 紧 接 的 字母 来 决定 。 他 表示 ， 举 个 例子， 元 音 和 辅音 稍稍 会 
交替 出 现 ， 所 以 如 果 你 看 到 一 个 辅音 ， 那 么 下 一 个 字母 《忽略 发 音 和 
空格 ) 很 有 可 能 束 是 元 音 ， 但 如 采 字 母 之 间 互 相 独立 ， 出 现 元 音 的 可 
能 性 束 不 会 那么 大 。 这 可 能 看 起 来 微不足道 ， 但 在 计算 机 发 明 出 来 之 
前 的 年 代 ， 这 需要 人 花费 数 小 时 来 数 文字 ， 而 马尔 可 夫 的 观点 在 当时 则 
很 新 凑 。 如 有 果 元 首 i 十 一 个 布尔 型 变量 ，《 尤 金 : 奥 涅 金 》 的 第 i 个 字母 
征 元 音 ， 则 该 变量 为 真 ， 如 采 它 征 一 个 辅音 则 为 假 ， 那 么 我 们 用 图 6-1 
这 样 的 连锁 图 来 表示 马尔 可 夫 模 型 ， 两 个 下 点 之 间 的 箭头 表示 相应 变 
量 之 间 的 直接 依赖 关系 : 


图 6-1 


马尔 可 夫 假 设 (假设 错误 但 有 用 ) 文中 每 个 位 置 的 概率 都 是 一 样 
的 。 因 此 我 们 只 需 估算 三 个 概率 P (元 音 1= 真 ) ，P (元 音 i+1= 真 | 


元 音译 真 ) ， 且 P (元 音 i+1= 真 | 元 音 冯 假 [因为 概率 相 加 等 于 1， 由 
此 我 们 可 以 马上 得 出 P (元 音 1= 假 ) 等 | 。 与 朴素 贝 叶 斯 法 一 样 ， 我 
们 可 以 随心 所 欲 拥 有 许多 变量 ， 而 不 用 估算 可 能 会 抵达 上 限 的 概率 的 
数量 ， 但 现在 变量 之 间 实 际 上 会 相互 依赖 。 


如 条 我 们 测量 的 不 仅仅 是 元 音 对 辅音 的 概率 ， 还 有 字母 顺序 章 循 
字母 表 顺 序 的 概率 ， 利 用 与 《 尤 金 : 奥 涅 金 》 一 样 的 统计 数据 ， 我 们 可 
以 很 愉快 地 生成 新 的 文本 : 选择 第 一 个 字母 ， 然 后 在 第 一 个 字母 的 基 
础 上 选择 第 二 个 字母 ， 以 此 类 推 。 当 然 结 果 是 一 堆 没 有 意义 的 数据 ， 
但 如 有 果 我 们 让 每 个 字母 都 依照 之 前 的 几 个 字母 而 不 止 一 个 字母 ， 这 个 
过 程 束 开始 听 起 来 更 像 一 个 酒 罗 的 疯 话 ， 昌 然 从 整体 上 看 没有 意义 ， 
但 从 局 部 上 看 却 很 连贯。 虽然 这 还 不 足以 通过 图 灵 测 试 ， 但 像 这 样 的 
模型 是 机 妖 翻 译 系统 的 关键 组 成 部 分 ， 比 如 合 歌 翻译 可 以 让 你 看 到 整 
版 的 英文 页 面 (或 者 几乎 整 版 ，， 不 管 原 页 面 的 语言 是 什么 。 


源 于 谷歌 的 页 面 排名 ， 本 喘 束 是 一 条 马尔 可 夫 链 。 拉 里 ' 佩 苛 认 
为 ， 人 台 有 许多 链接 的 页 面 ， 可 能 会 比 只 含 几 个 的 要 重要 ， 而 且 来 目 重 
要 页 面 的 链接 本 映 也 更 有 价值 。 这 样 束 形成 了 一 种 无 限 倒退 ， 但 我 们 
可 以 利用 马尔 可 夫 链 来 掌控 这 种 倒退 。 想 象 一 下 ， 一 个 页 面 搜 索 用 户 
通过 随机 点击 链接 来 从 这 个 页 面 跳 到 男 外 一 个 页 面 ， 这 时 马尔 可 夫 链 
的 状态 束 不 是 文字 而 古 页 面 了 ， 这 样 问题 束 变 得 更 为 复 灯 ， 但 数学 原 
理 是 一 样 的 。 那 么 每 个 页 面 的 得 分 整 是 搜索 用 户 花 在 该 页 面 上 的 时 
间 ， 或 者 等 于 他 徘徊 很 久 后 停留 在 该 页 面 上 的 概率 。 


马尔 可 夫 链 无 处 不 在 ， 而 且 是 人 们 人 研究 最 多 的 数学 话题 ， 但 它 仍 
征 受 到 很 大 限制 的 概率 模型 。 我 们 可 以 用 图 6-2 中 的 模型 来 进一步 探讨 


这 个 问题 。 


图 6-2 


与 之 前 一 样 ， 这 些 状态 组 成 一 条 马尔 可 夫 链 ， 但 我 们 看 不 到 它 
们 ， 得 从 观察 中 将 它们 推导 出 来 。 人们 称 其 为 隐藏 的 马尔 可 夫 模 型 ， 
或 者 简称 为 HMM 《有 点 误导 人 ， 因 为 被 隐藏 的 是 状态 ， 而 不 是 模 
型 ) 。HMM 和 Siri 一 样 ， 处 于 语音 识别 系统 的 中 心 。 在 语音 识别 过 程 
中 ， 隐 藏 的 状态 是 书面 形式 的 单词 ， 而 观察 值 则 是 对 Siri 说 的 声音 ， 而 
目标 则 钙 从 声音 中 推断 出 单词 。 模 型 有 两 个 组 成 部 分 ， 给 定 当 前 单词 
的 情况 下 ， 下 一 个 单词 出 现 的 概率 和 在 马尔 可 夫 链 中 的 一 样 ;在 单词 
被 说 出 来 的 情况 下 ， 听 到 各 种 声音 的 概率 《到 底 如 何 进行 推导 ， 这 是 
一 个 有 趣 的 问题 ， 下 面 我 们 会 来 讨论 这 个 问题 ) 。 


除了 Siri， 你 每 次 用 手机 来 通话 时 都 会 用 到 一 个 HMM。 这 是 因为 
你 的 词语 在 空气 中 以 位 流 的 形式 发 送 ， 而 数位 在 发 送 过 程 中 会 受到 损 
坏 。 这 个 HMM 接 痢 会 从 接收 到 的 数位 中 (观察 值 ) 找到 预期 的 那个 


(隐藏 状态 )  ， 这 是 HMM 应 该 能 做 得 到 的 ， 只 要 受 损 的 数位 不 是 很 
多 。 
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HMM 还 是 计算 生物 学 家 最 为 喜爱 的 工具 。 一 个 蛋 日 质 分 子 是 一 个 
有 筑 基 酸 序列 ， 而 DNA 则 十 一 个 碱 基 序 列 。 举 个 例 于 ， 如 采 我 们 想 预 测 
一 个 蛋白 质 分 子 怎 样 才能 形成 三 维 形 状 ， 我 们 可 以 把 有 筑 基 酸 当 作 观 察 
值 ， 把 每 个 点 的 禄 和 角 类 型 当 作 隐藏 状态 。 同 样 ， 我 们 可 以 用 一 个 HMM 
来 确定 DNA 中 基因 开始 转录 的 地 点 ， 还 可 以 确定 其 他 许多 属性 。 


如 果 状 态 和 观察 值 都 古 连 续 而 非 离散 变量 ， 那 么 HMM 束 变 成 人 们 
熟知 的 卡尔 曼 滤 波 器 。 经 济 学 家 利用 卡尔 曼 滤 波 占 来 从 数量 的 时 间 序 
列 中 消除 见 余 ， 比 如 GDP (国内 生产 总 值 ，、 通 货 脱 胀 、 失 业 率 。“ 真 
正 的 "GDP 值 属于 隐藏 的 状态 ， 在 每 一 个 时 间 点 上 ， 真 值 应 该 与 观察 值 
相似 ， 同 时 也 与 之 前 的 真 值 相似 ， 因 为 经 济 很 少 会 突然 跳跃 式 增长 。 
卡尔 曼 滤 波 器 会 交替 使 用 这 两 者 ， 同 时 会 生成 流畅 的 曲线 ， 仍 与 观察 
值 一 致 。 当 导弹 巡航 到 目的 地 时 ， 束 是 卡尔 受 滤波 吉 使 它 保持 在 轨道 
上 。 没 有 卡尔 曼 滤 波 器 ， 人 类 束 无 法 登 上 月 球 。 


所 有 东西 都 有 关联 ， 但 不 是 直接 关联 


HMM 有 助 于 模拟 所 有 种 类 的 序列 ， 但 它们 远 远 不 如 符号 学 派 
的 “如 果 ...... 那 么 ......” 规 则 灵活 ， 在 这 个 规则 当中 ， 任 何事 都 可 以 以 
前 提 的 形式 出 现 ， 而 在 任意 下 游 规则 中 ， 一 条 规则 的 结果 可 以 反 过 来 
当 作 前 提 。 然 而 ， 如 果 我 们 允许 如 此 随意 的 结构 在 实践 中 存在 ， 那 么 
需要 掌握 的 概率 数量 将 会 呈 爆 发 式 增长 。 很 长 一 段 时 间 ， 没 有 人 知道 
该 如 何 打破 这 个 循环 ， 而 研究 者 们 只 能 求助 于 特别 方案 ， 比 如 将 置信 
度 佑 算 与 规则 挂钩， 并 以 某 种 方式 将 它们 联合 起 来 。 如 果 A 以 0.8 的 置 
信 度 暗 指 B， 而 B 以 0.7 的 置信 度 瞳 指 C， 那 么 也 许 A 暗 指 C 的 置信 度 则 
为 0.8x0.7。 


这 些 方 案 的 问题 在 于 ， 它 们 可 能 会 关 重 出 错 。 我 可 以 根据 两 个 合 
情 合 理 的 规则 一 一 如 果 灭 火 咕 水 系统 打开 了 ， 那 么 玻璃 束 会 湾 ， 如 末 
玻璃 泥 了 ， 那 么 下 十 了 一 一 推导 出 一 条 充 雇 的 规则 : 如 采 灭 火 喷 水 系 
统 打 开 了 ， 那 么 下 十 了 。 一 个 洲 藏 得 更 深 的 问题 和 症 ， 有 了 置信 度 评级 
规则 ， 我 们 容易 重复 计算 证 据 。 假 设 你 在 读 《 纽 约 时 报 》， 讲 的 是 外 
星人 已 经 登陆 地 球 。 这 一 天 不 是 4 月 1 日 ， 可 能 这 是 一 个 玩笑 。 但 是 现 
在 你 在 《华尔街 日 报 》《 今 日 美国 》《 华 盛 顿 邮 报 》 看 到 一 样 的 标 


题 。 你 开始 感到 慨 张 ， 台 像 奥 森 : 威 尔 斯 声名 狠 厌 的 广播 剧 《 世 界 大 
战 》 的 听众 一 样 ， 没 有 意识 到 这 只 是 戏剧 化 的 描写 。 但 是 ， 如 采 你 得 
看 细 记 ， 会 发 现 这 四 家 报社 部 从 美 联 社 那里 得 到 这 个 新 闻 标题 ， 你 又 
返回 去 怀疑 这 是 一 个 玩笑 ， 而 这 次 开玩笑 的 是 一 位 美 联 社 的 记者 。 规 
则 系统 无 法 解决 这 个 问题 ， 村 素 贝 叶 斯 法 也 一 样 。 如 果 它 标 出 诸如 “由 
《纽约 时 报 》 报 道 ” 的 字样 ， 预 示 新 闻 事 件 是 真实 的 ， 那 么 它 能 做 的 也 
只 是 加 上 “由美 联 社 报道 ” 的 字样 ， 这 样 只 会 让 事情 变 得 更 糟 薰 。 


20 世 纪 80 年 代 终 于 有 了 突破 。 朱 过 亚 : 珀 尔 (加 州 大 学 洛杉矶 分 校 
的 一 名 计算 机 科学 教授 ) 发 明了 一 种 新 的 表示 方法 贝 叶 斯 网 络 。 班 
尔 是 世界 上 最 为 摆 考 的 计算 机 科学 家 之 一 ， 他 的 方法 在 机 右 学 习 、 人 
工 入 能 ， 以 及 其 他 许多 领域 迅速 传播 。2012 年 ， 他 获得 图 灵 次 ， 这 是 
计算 机 科学 领域 的 诺 贝尔 交 。 


珀 尔 意识 到 ， 拥 有 一 个 随机 变量 之 间 复 浅 的 依赖 天 系 网 络 也 没 什 
么 ， 只 要 每 个 变量 仅仅 直接 依赖 于 其 他 几 个 变量 。 我 们 可 以 如 之 前 看 
到 的 蕊 尔 可 夫 链 和 HMM 那 样 ， 用 一 幅 图 来 表示 这 些 依赖 天 系 ， 除 了 现 
在 该 图 可 以 是 任意 结构 (只 要 箭头 不 会 形成 团 环 ) 。 珀 尔 最 喜欢 的 例 
子 之 一 驶 是 防盗 报警 问 。 当 窃贼 企图 问 入 时 ， 你 房子 的 报警 郁 应 该 会 
啊 起 来 ， 但 它 也 可 能 会 因为 地 震 而 啊 起 (在 洛杉矶 ， 珀 尔 居 住 的 地 
方 ， 地 震 和 盗 家 案 发 生 的 频率 一 样 ) 。 如 果 你 此 时 工作 到 很 晚 ， 而 你 
的 邻居 鲍 动 打 电 话 给 跟 说 他 听 a 到 你 家 的 报警 器 啊 了 ， 而 你 的 邻居 殉 莱 
尔 却 没 打 给 你 ， 你 应 该 报警 吗 ? 图 6-3 表 明了 这 种 依赖 天 系 。 


图 6-3 


如 果 图 中 有 一 个 箭头 从 一 个 节点 指 到 男 外 一 个 节点 ， 我 们 说 第 一 
个 布点 古 第 二 个 市 点 的 父 节 后 。 那 么 “报警 占 ” 的 父 节 点 就 是 “ 盗 饭 
案 ”" 和 “地 震 ”?"， 而 “报警 右 ” 是 “ 鲍 红 打 来 电话 ”和 “克莱尔 打 来 电话 ”的 唯 
一 父 节 点 。 贝 叶 斯 网 络 束 是 像 这 样 的 依赖 关系 图 ， 附 市 一 张 包含 每 个 
变量 的 表格 ， 给 出 变量 父 节 点 的 每 个 值 的 组 合 概 率 。 对 于 “ 盗 饭 
案 ”" 和 “地 震 ?， 我 们 只 需 每 个 一 个 概率 ， 因 为 它们 没有 父 太 护 。 对 
于 “报警 絮 ” 我 们 需要 四 个 概率 如果 盗 镭 案 和 地 震 都 不 发 生 ， 报 警 右 
啊 起 的 概率 ， 如 采 盗 神 案 发 生 ， 地 震 未 发 生 ， 报 警句 啊 起 的 概率 等 。 
对 于 “ 饱 勃 打 来 电话 ”， 我 们 需要 两 个 概率 (考虑 报警 器 和 未 考虑 报警 
器 ) ， 克 菜 尔 的 情况 也 一 样 。 


以 下 是 问题 的 关键 点 : 鲍 劲 依据 “ 盗 神 案 " 和 “地 震 ” 来 打 电 话 ， 但 
只 能 通过 “报警 磊 ? 来 获取 信息 。 考 虑 到 “报警 大 ”时 ， 鲍 勃 的 电话 才 会 
条 件 地 独立 于 “ 盗 家 案 ”和 “地 震 ” 之 外 ， 殉 菜 尔 的 情况 也 一 样 。 如 果 报 
警 郁 未 啊 起 ， 你 的 邻居 睡 得 很 理 ， 而 寡 贼 也 没有 惊扰 别人 。 同 样 ， 考 
虑 到 “报警 硕 ”， 鲍 邯 和 克莱尔 相互 独立 。 没 有 这 个 独立 结构 ， 你 需要 
掌握 32 个 2 概率， 每 个 概率 对 应 5 个 变量 的 可 能 状态 (或 者 31 个 概率 ， 
如 果 你 讲究 细节 ， 因 为 最 后 一 个 可 能 是 隐 含 概率) 。 有 了 条 件 独 立 


性 ， 你 需要 的 只 是 1+1+4+2+2=10， 可 以 少 算 68% 的 概率 。 这 仅仅 是 小 
例子 的 情况 ， 如 果 有 数 百 或 者 数 千 个 变量 ， 省 力 的 程度 可 能 达到 
1009%6。 


据 生 物 学 家 巴里 : 康 芒 纳 的 观点 ， 生 态 学 的 第 一 定律 束 是 所 有 生命 
都 与 其 他 生命 相互 关联。 这 个 说 法 可 能 正确 ， 但 也 会 使 人 们 无 法 理解 
这 个 世界 ， 如 果 不 是 多 亏 条 件 独 立 性 : 每 个 生命 都 相互 关联 ， 但 只 是 
间接 关联 。 为 了 对 我 产生 影响 ，1 英 里 之 外 发 生 的 事情 ， 即 使 通过 光 传 
播 ， 也 得 先 影 响 我 周围 的 环境 。 可 以 打趣 说 ， 空 间 是 所 有 事情 没有 都 
发 生 在 你 身上 的 原因 。 换 句 话说 ， 空 间 结构 是 条 件 独立 性 的 一 个 实 
例 汉 


在 盗 留 案 的 例子 中 ，32 个 概率 的 完整 表格 不 会 明确 表示 出 来 ， 但 
通过 较 小 表格 和 图 形 结构 的 集中 ， 它 会 被 隐 含 地 表示 出 来 。 为 了 获得 
P ( 盗 守 案 、 地 震 、 报 警 器 、 鲍 勃 打 来 电话 、 死 菜 尔 打 来 电话 ) ， 我 
要 做 的 就 是 把 以 下 概率 相 乘 : P ( 盗 贸 案 ) 、P (地 震 ) 、P (报警 器 | 
盗窃 案 、 地 震 ) 、P 〈 鲍 勃 打 来 电话 | 报警 器 ) 、P (克莱尔 打 来 电话 | 
报警 器 ) 。 在 任意 贝 叶 斯 网 络 中 也 是 同样 的 道理 : 为 了 获得 完整 状态 
的 概率 ， 只 需 将 单个 变量 表格 中 相应 行 上 的 概率 相 乘 。 因 此 ， 只 雪 条 
件 独 立 性 有 效 ， 转 换 到 更 加 简洁 的 表示 方法 不 会 导致 信息 丢失 。 这 样 
我 们 束 可 以 很 容易 算出 极端 非 寻 和音 状态 的 概率 ， 包 括 之 前 未 观察 到 的 
状态 。 贝 叶 斯 网 络 揭穿 这 样 一 个 常识 性 错误 : 机 器 学 习 无 法 预测 鲜 有 
的 上 时间， 或 者 纳西 姆 : 塔 勒 布 口 中 的 “ 崎 天 物 ”。 


回想 一 下 ， 我 们 可 以 看 到 朴素 贝 叶 斯 法 、 马 尔 可 夫 链 、HMM 都 是 
贝 叶 斯 网 络 的 特殊 例子 。 朴 素 贝 叶 斯 法 的 结构 如 图 6-4 所 示 。 


人 Cs) C ame ) (sm ) 


图 6-4 


马尔 可 夫 链 隐 仿 这样 的 猜想: 考虑 到 现在 ， 未 来 会 有 条 件 地 独立 
于 过 去 。 此 外 ，HMM 假 设 每 个 观察 值 只 依赖 于 对 应 的 状态 。 贝 时 斯 网 
络 对 贝 叶 斯 学 派 来 说 ， 残 像 逻 辑 与 符号 学 者 的 关系 : 一 种 通用 语 ， 可 
以 让 我 们 很 好 地 对 各 式 各 样 的 情形 进行 编码 ， 然 后 设计 出 与 这 些 情 形 
相 一 致 的 算法 。 


我 们 可 以 把 贝 叶 斯 网 络 想 成 “生成 模型 *， 即 从 概率 的 角度 ， 形 成 
世界 状态 的 方法 ， 首 先 要 决定 盗 贸 案 或 地 震 是 否 会 发 生 ， 然 后 在 此 基 
础 上 决定 报警 部 是 否 会 啊 起 ， 再 次 在 此 基础 上 决定 鲍 邯 和 克莱尔 是 否 
会 打 电 话 。 贝 叶 斯 网 络 讲述 这 样 的 故事 : A 发 生 了 ， 接 着 它 导 致 B 的 发 
生 ; 同时 ，C 也 发 生 了 ， 而 B 和 C 共 同 引 起 D 的 发 生 。 为 了 计算 特定 事 
件 的 概率 ， 我 们 只 需 将 与 之 相关 事件 的 概率 相 乘 即 可 。 


贝 叶 斯 网 络 最 激动 人 心 的 应 用 之 一 ， 束 古 模 拟 基 因 在 活 细 胞 中 如 
何 相互 管制 。 人 们 已 经 花费 数 十 亿美 元 来 找到 单个 基因 和 特殊 疾病 的 
两 两 相关 关系 ， 但 产 出 却 低 得 让 人 失望 。 回 想 一 下 ， 这 并 不 奇怪 : 细 
胞 的 活动 是 基因 与 环境 复杂 的 相互 作用 的 结果 ， 而 单个 基因 的 预测 能 
力 有 限 。 但 有 了 贝 叶 斯 网 络 ， 我 们 可 以 揭 开 这 些 相互 关系， 只 要 我 们 
有 必要 的 数据 ， 而 随 首 DNA 微 阵列 技术 的 普及 ， 我 们 越 来 越 有 布 望 能 
做 到 。 


开辟 机 硕 学 习 在 垃圾 邮件 的 应 用 之 后 ， 大 卫 `. 赫 区 曼 开始 转 癌 将 贝 
叶 斯 应 用 于 抵抗 艾滋 病 的 斗争 中 。 艾 谱 病 病毒 是 很 强 的 对 手 ， 因 为 它 
可 以 迅速 变异 ， 这 样 所 有 疫 醒 或 者 药物 长 时 间 抑 制 艾 滋 病 病毒 整 变 得 
困难 。 款 克 受 注意 到 ， 这 征 一 个 和 狂 捉 老鼠 一 样 的 游戏 ， 垃 圾 邮件 过 
滤器 和 垃圾 邮件 玩 页。 他 决定 将 目 己 学 习 的 一 个 经 验 付 诸 实 践 : 攻击 
最 弱 的 链接 。 在 垃圾 邮件 的 例子 中 ， 弱 链接 包括 为 了 收 到 客户 的 款项 
而 必须 使 用 的 网 址 。 在 艾滋 病 的 例子 中 ， 它 们 区 ® 古 病毒 蛋 晶 质 的 微小 
区 域 ， 不 伤害 病毒 就 无 法 改变 这 些 区 域 。 如 果 他 可 以 对 免疫 系统 进行 
训练 ， 使 其 识别 这 些 区 域 ， 然 后 攻击 表现 这 些 区 域 的 细胞 ， 他 可 能 只 
有 一 种 艾 洲 病 疫 盏 。 赫 区 受 和 同事 利用 贝 叶 斯 网 络 来 帮助 识别 易 受伤 
区 域 ， 并 研发 出 一 个 疫苗 交付 机 制 ， 用 来 教 免 疫 系统 只 攻击 那些 区 
域 。 这 些 交 付 机 制 在 老鼠 身上 起 作用 了 ， 而 且 现 在 人 们 已 经 在 准备 临 
床 试验 。 


这 样 的 事情 经 常 发 生 : 即使 我 们 将 所 有 条 件 独 立 性 都 考虑 进来 ， 
贝 时 斯 网 络 中 的 一 些 节 点 仍 有 太 多 的 父 节 点 。 有 些 网 络 布 满 箭 头 ， 这 
样 当 我 们 打印 这 些 网 络 图 时 ， 纸 面 会 变 成 黑色 (物理 学 家 马克 :纽曼 称 
之 为 “ 殉 雇 图 >) 。 医 生 需 要 同时 诊断 病人 可 能 患 的 病 ， 而 不 止 一 种 ， 
而 且 每 种 疾病 是 许多 不 同 症 状 的 根源 。 除 了 感冒 ， 发 烧 可 能 由 任意 数 
量 的 条 件 引 起 ,但 是 考虑 到 条 件 的 每 个 可 能 的 组 合 ， 党 试 预 测 其 概率 
儿 无 希望 。 其 实 还 有 一 线 希 望 ， 不 需要 这 样 的 表格 :为 每 个 状态 的 起 
因 详 细 说 明 每 个 节点 的 条 件 概 率 ， 我 们 可 以 对 较 简 单 的 分 布 进行 学 
习 。 最 受 青睐 的 选择 是 逻辑 OR 运算 (Logical OR operation) 的 一 个 概 
率 版 本 : 任何 原因 都 可 以 独 目 引起 发 烧 ， 但 每 个 原因 都 会 有 一 个 特 
定 、 无 法 引起 发 烧 的 概率 ， 即 使 通常 情况 下 该 原因 引起 发 烧 的 理由 充 
分 。 赫 克 受 和 其 他 人 已 经 对 贝 叶 斯 网 络 进行 学 习 ， 通 过 这 种 方法 来 诊 
叶 数 百 种 传染 病 。 合 歌 在 其 AdSense 系 统 中 利用 这 种 类 型 的 庞大 贝 叶 斯 
网 络 ， 用 于 目 动 选择 广告 放 入 网 页 中 。 该 网 络 将 100 万 的 满足 变量 相互 
关联 起 来 ， 同 时 还 通过 3 亿 个 箭头 与 1200 万 的 词语 和 词组 相关 联 ， 这 些 
词语 和 词组 都 是 从 1000 亿 个 文本 片段 和 搜索 词 条 中 掌握 的 。 


说 点 轻松 的 ， 微 软 的 Xbox Live 游 戏 用 贝 叶 斯 网 络 来 对 选手 进行 排 
名 ， 并 对 技术 水 平 相似 的 选手 进行 配对 。 这 款 游戏 的 结果 就 是 可 以 知 
道 对 手 技术 水 平 的 一 个 概率 函数 ， 而 且 利用 贝 叶 斯 定理 ， 我 们 可 以 从 
选手 的 游戏 结果 推断 选手 的 技术 水 乎 。 


推理 问题 


遗憾 的 征 ， 推 理 问 题 是 一 个 巨大 的 障碍 。 仅 仅 因为 贝 叶 斯 让 我 们 
简洁 地 表达 概率 分 布 ， 这 并 不 意味 着 我 们 也 可 以 利用 它 进 行 有 效 推 
理 。 假 设 你 想 计算 P 《盗窃 案 | 鲍 勃 打 电 话 ， 而 区 菜 尔 没有 ) 。 利 用 贝 
叶 斯 定理 ， 你 知道 这 仅仅 是 P ( 盗 鳃 案 ) P 《〈 鲍 勃 打 电话 ， 而 克莱尔 没 
有 | 盗 贸 案 ) /PP ( 鲍 勃 打 电 话 ， 而 克莱尔 没有 ) ， 或 者 相当 于 P ( 盗 针 
案 ， 鲍 勃 打 电话 ， 而 区 莱 尔 没有 ) /P 〈 鲁 勃 打 电 话 ， 而 区 莱 尔 没 
有 ) 。 如 果 有 包含 所 有 状态 的 概率 的 完整 表格 ， 你 可 以 获得 这 两 个 概 
率 ， 方 法 就 是 把 表格 中 对 应 行 的 值 加 起 来 。 例 如 ，P ( 鲍 过 打 电话 ， 
而 克莱尔 没有 ) 是 在 所 有 包含 鲍 勃 打 电话 ， 而 区 菜 尔 没有 的 概率 的 行 
中 ， 把 这 些 概率 值 加 起 来 ， 但 是 贝 叶 斯 网 络 不 会 给 你 完整 的 表格 。 你 
总 可 以 通过 单个 表格 来 构建 这 样 的 表格 ， 但 这 需要 很 多 时 间 和 空间 。 
我 们 真正 需要 的 是 计算 P 《盗窃 案 | 鲍 勃 打 电话 ， 而 克莱尔 没有 ) ， 而 
不 用 建立 完整 的 表格 。 简 单 地 说 ， 那 吏 是 贝 叶 斯 网 络 中 的 推理 问题 。 


在 许多 例子 中 ， 我 们 可 以 做 到 这 一 点 ， 并 避免 指数 性 又 增 。 假 设 
夜 深 入 静 时 你 正 带领 排 成 纵队 的 一 个 排 ， 罕 过 敌人 的 领地 ， 而 你 想 确 
认 所 有 士兵 仍 在 跟着 你 。 你 可 以 人 下 ， 目 己 数 人 数 ， 但 那样 做 会 浪费 
太 多 时 间 。 一 个 更 聪明 的 办 法 融 是 只 问 排 在 你 后 面 的 第 一 个 兵 : “你 后 
面 有 几 个 兵 ? "每 个 士兵 都 会 问 目 己 后 面 的 士兵 同一 个 问题 ， 知 道 最 后 
=? 人 上 二 雁 回 客 一 个 也 没有 倒数 第 二 个 士 斥 现在 司 以 这 M2 惟 


此 类 推 ， 直 到 回 到 第 一 个 士兵 ， 每 个 士兵 都 会 在 后 面 士兵 所 报 数 的 基 
础 上 加 一 。 现 在 你 知道 有 多 少 兵 还 跟着 你 ， 你 甚至 都 不 用 停 下 来 。 


Siri 用 同样 的 想法 来 计算 你 刚才 说 的 概率 ， 通 过 它 从 麦克 风 中 听 到 
的 声音 来 进行 “报警 "。 把 “Call the police” (报警 ) 想 成 一 排 单词 ， 正 
以 纵队 形式 在 页 面 上 行走 ,“police” 想 知道 它 的 概率 ， 但 要 做 到 这 一 
点 ， 它 需要 知道 *the” 的 概率 ; “the” 回 过 头 要 知道 call 的 概率 。 所 
以 call 计算 它 的 概率 ， 然 后 将 其 传递 给 "the”, “the” 重 复 步骤 并 将 概率 
传递 给 "police”。 现 在 “police” 知 道 它 的 概率 了 ， 这 个 概率 受到 句子 中 
每 个 词语 的 适当 影响 ， 但 我 们 绝 不 必 建 立 8 个 概率 的 完整 表格 (第 一 个 
单词 是 否 为 “call”， 第 二 个 是 否 为 *the”， 第 三 个 是 否 为 "police”) 。 实 
际 上 ，Siri 考 虑 在 每 个 位 置 中 出 现 的 所 有 单词 ， 而 不 仅仅 是 第 一 个 单词 
是 否 为 “call” 等 ， 但 算法 是 一 样 的。 也 许 Siri 认 为 ， 在 声音 的 基础 上 ， 
第 一 个 单词 不 是 “call* 束 是 “tell”*"， 第 二 个 不 是 “the” 就 是 “her”"， 第 三 个 
不 是 “police” 就 是 “please”。 个 别 地 ， 也许 最 有 可 能 的 单词 
是 “call*”、“the” 和 “please”。 但 那样 会 变 成 一 句 没 有 意义 的 话 “Call the 
please”， 所 以 要 考虑 其 他 单词 ，Siri 得 出 结论 ， 认 为 句子 就 是 “Call the 
police”。 它 会 打 电 话 ， 滁 运 的 是 警察 及 时 赶 到 你 家 并 抓 住 小 偷 。 


如 有 果 图 是 一 棵 树 而 不 是 一 条 链 ， 那 么 同样 的 想法 还 会 奏效 。 如 果 
你 领导 的 是 整 支 军队 而 不 仅仅 是 一 个 排 ， 你 可 以 问 每 个 连 长 ， 他 们 里 
后 有 多 少 士 兵 ， 然 后 把 他 们 的 回答 相 加 。 反 过 来 ， 每 个 连 长 会 问 他 的 
每 个 排 长 ， 以 此 类 推 。 但 如 果 疼 形 形 成 环 状 ， 你 吏 会 遇 到 麻烦 。 如 采 
有 一 个 联络 官员 ， 他 同时 是 两 个 排 的 成 员 ， 他 会 数 两 次 数 。 实 际 上 ， 
他 吴 后 的 每 个 人 都 会 数 两 次 。 这 了 吏 是 “外 星人 登陆 ?情形 中 发 生 的 问 
题 ， 举 个 例子 ， 如 果 你 想 计 算 仍 怕 的 概率 ， 如 图 6-5 所 示 。 


《纽约 时 报 》 


报道 该 新 闻 


《华尔街 日 报 》 


报道 该 新 闻 


图 6-5 


有 一 个 办 法 就 是 将 <《 纽 约 时 报 》 报 道 该 新 闻 ? 与 “ 《华尔街 日 报 》 
报道 该 新 闻 ” 结 合 起 来 ， 变 成 一 个 拥有 4 个 值 的 单个 特大 变量 :如 采 它 
们 都 报道 了 ， 那 整 是 “十 是 ” 如 果 《 纽 约 时 报 》 报 道外 星人 登陆 ， 而 
《华尔街 日 报 》 没 有 ， 那 就 是 “是 否 ” 等 等 。 这 样 图形 束 会 变 成 一 条 
售 二 个 变量 的 链子 ， 一 切 顺利 。 然 而 ， 每 次 你 加 入 新 来 源 时 ， 特 大 变 
量 的 值 的 数量 会 翻 倍 。 如 果 你 有 50 而 不 是 2 个 新 来 源 ， 特 大 变量 会 
250 个 值 。 所 以 这 种 方法 只 能 帮 你 帮 到 这 里 ， 而 更 有 效 的 方法 还 未 被 人 
发 现 。 


这 个 问题 比 表面 看 起 来 的 还 要 糟糕 ， 因 为 贝 叶 斯 网 络 实际 上 有 " 隐 
形 的 ”箭头 伴随 着 看 得 见 的 箭头 。“ 盗 安 案 "和 “地 震 ? 是 相互 独立 的 移 难 
条 件 ， 但 报警 絮 啊 起 会 使 两 者 纠缠 在 一 起 :报警 紫 让 你 怀疑 有 盗 留 ， 
但 如 果 现 在 听 广 播 谤 有 地 震 ， 你 会 假定 那 是 让 报警 磊 啊 起 的 原因 。 地 


震 已 经 “通过 解释 消除 ”报警 絮 啊 起 的 疑虑 ， 这 样 盗 穷 束 不 太 可 能 会 发 
生 ， 因 此 两 者 又 相互 依赖 了 。 在 贝 叶 斯 网 络 中 ， 所 有 变量 的 根源 都 以 
这 种 方式 相互 独立 ， 而 这 反 过 来 引入 进一步 的 依赖 关系， 这 殊 使 得 最 
后 的 图 往往 比 最 初 的 图 要 更 加 密集 。 


推理 的 关键 问题 是 你 能 否 使 填 好 的 图 “看 起 来 像 一 棵 树 ”， 而 不 让 
树干 变 得 太 密 。 如 果枝 干 上 的 特大 变量 包 售 过 多 的 可 能 值 ， 这 村 树 会 
不 受 限制 地 生长 ， 直 到 它 窗 盖 整 个 星球 ， 像 《小 王子 》 中 的 猴 面 包 树 
一 样 。 在 生命 之 树 中 ， 每 个 物种 都 是 一 个 分 校 ， 但 每 个 枝 干 内 部 是 一 
个 图 ， 每 个 生物 都 有 一 对 父母 ， 各 有 一 对 祖父 母 、 外 祖父 母 ， 以 及 大 
干 个 后 代 等 。 枝 干 的 “厚度 ”古物 种 数量 的 大 小 。 当 枝 干 过 于 成 密 时 ， 
我 们 的 唯一 选择 就 古 求助 于 近似 推理 。 


有 一 个 方法 ， 班 尔 在 关于 贝 叶 斯 网 络 的 书 中 ， 将 其 当 作 练习 ， 也 
就 是 假 半 图 形 没有 闭环 ， 并 来 来 回回 传播 概率 ， 直 到 这 些 概率 集中 于 
一 点 。 这 被 人 们 称 为 “ 环 路 信念 传播 ” (loopy belief propagation) ， 
为 它 在 含有 闭环 的 图 形 中 能 起 作用 ， 也 因为 这 是 一 个 状 狂 的 想法 。 让 
人 惊讶 的 是 ， 在 许多 例子 中 ， 它 能 很 好 地 起 作用 。 例 如 ， 这 对 于 无 线 
通信 来 说 ， 是 最 先进 的 方法 ， 随 机 变量 在 信息 中 被 当 作 数 位 ， 以 灵活 
的 办 法 被 编码 起 来 。 环 路 信念 传播 也 可 以 收敛 变 成 错误 的 答案 ， 或 者 
永远 处 于 振荡 状态 。 还 有 男 一 个 办 法 ， 它 起 源 于 物理 学 ， 但 被 引入 机 
妖 学 习 ， 还 被 迈 克 尔 : 错 丹 和 其 他 人 大 大 扩充 过 : 就 是 利用 易于 处 理 的 
分 配 来 对 难以 处 理 的 分 配 进行 粗略 估计 ， 然 后 优化 前 者 的 参数 ， 使 其 
尽 可 能 地 与 后 者 接近 。 


然而 ， 最 受 人 青睐 的 选择 就 是 借 酒 浇 愁 ， 临 得 栈 丽 大 醇 ， 然 后 整 
夜 都 在 跌跌撞撞 。 该 选择 的 技术 术语 为 “马尔 可 夫 链 蒙特 卡 洛 理 
论 ”(Markov chain Monte Carlo，MCMC) : 有 “蒙特 卡 洛 ” 这 个 部 分 ， 
是 因为 这 个 方法 涉及 机 遇 ， 比 如 到 同名 的 赌场 去 ， 有 “马尔 可 夫 链 ”部 
分 ， 是 因为 它 涉 及 采取 一 系列 措施 ， 每 个 措施 只 能 依赖 于 前 一 个 措 


施 。MCMC 中 的 思想 就 是 随便 走 走 ， 吏 像 众 所 周知 的 醉 汉 那样 ， 以 这 
样 的 方式 从 网 络 的 这 个 状态 跳 到 另 一 个 状态 。 这 样 长 期 下 来 ， 每 个 状 
态 受 访 的 次 数 就 与 它 的 概率 成 正比 。 比 如 ， 接 下 来 我 们 可 以 估算 盗窃 
案 的 概率 为 我 们 访问 某 个 状态 的 时 间 段 ， 在 这 个 状态 中 有 一 起 盗窃 
案 。 一 条 “和 守 规 矩 的 ?马尔 可 夫 链 会 收敛 到 稳定 分 布 中 ， 所 以 过 一 会 儿 
它 总 会 给 出 大 致 一 样 的 答案 。 例 如 ， 当 你 洗 一 副 扑 元 牌 时 ， 过 一 会 
儿 ， 所 有 牌 的 顺序 都 会 近似 ， 无 论 最 初 的 顺序 是 什么 。 所 以 你 知道 如 
果 有 n 种 可 能 的 顺序 ， 每 种 顺序 的 概率 束 是 Vn。MCMC 的 秘诀 束 在 于 
设计 一 条 马尔 可 夫 链 ， 收 敛 于 我 们 贝 叶 斯 网 络 的 分 布 中 。 有 一 个 商 单 
的 选择 ， 束 是 重复 循环 通过 所 有 变量 ， 考 虑 其 附近 的 状态 ， 根 据 其 条 
件 概 率 对 每 个 变量 进行 取样 。 人 们 在 谈论 MCMC 时 ， 往 往 把 它 当 作 一 
种 模拟 ， 但 它 其 实 不 是 : 马尔 可 夫 链 不 会 模仿 任何 真实 的 程序 ， 我 们 
将 其 创造 出 来 ， 目 的 是 为 了 从 贝 叶 斯 网 络 中 有 效 生 成 样本 ， 因 为 贝 叶 
斯 网 络 本 里 束 不 是 序 变 模式 。 


MCMC 的 起 源 可 以 追溯 到 曼哈顿 计划 ， 那 时 物理 学 家 们 需要 估算 
中 子 与 原子 相 撞 的 概率 ， 并 引发 连锁 反应 。 但 近 10 年 来 ， 这 引发 了 一 
场 革命 ， 和 常常 使 人 们 认为 MCMC 是 有 史 以 来 最 重要 的 算法 之 一 。 
MCMC 不 仅 有 助 于 计算 概率 ， 也 有 助 于 求 任何 男 数 的 积分 。 没 有 它 ， 
科学 家 们 只 能 受 限于 那些 用 分 析 方 法 来 求 积分 的 国 数 ， 或 者 受 限 于 那 
些 民 性 的 低 维 积分 ， 这 些 积分 可 以 近似 看 作 一 系列 梯形 。 有 了 
MCMC， 科 学 家 们 整 可 以 目 由 构建 复 洒 的 模型 ， 直 到 计算 机 会 挑 起 重 
担 。 贝 叶 斯 学 派 ， 举 个 例子 ， 可 能 要 感激 MCMC， 因 为 MCMC 和 其 他 
东西 比 ， 更 能 为 他 们 的 方法 提高 人 气 。 


不 好 的 一 面 在 于 ，MCMC 的 收敛 速度 往往 慢 得 让 人 难以 忍受 ， 或 
者 在 未 完成 收敛 时 其 统 你 已 经 完成 收敛。 真正 的 概率 分 配 通 利 非 常 巧 
殊 ， 微 小 概率 的 大 片 * 殉 地 ”会 突然 插入 “珠穆朗玛 峰 ?。 接 下 来 ， 马 尔 
可 夫 链 会 收敛 到 最 近 的 顶峰 ， 然 后 停留 在 那里 ， 得 出 侦 差 很 大 的 概率 
估算 值 。 这 束 像 醉 史 跟随 酒 的 香气 来 到 最 近 的 酒馆 ， 然 后 整 夜 待 在 那 


里 ， 而 不 是 我 们 想 让 他 做 的 那样 ， 到 城市 里 游 注 。 另 一 方面 ， 如 果 我 
们 不 用 马尔 可 夫 链 而 是 只 生成 独立 的 样本 ， 和 较 简 单 的 锭 特 卡 落 法 一 
样 ， 没 有 任何 味道 指引 我 们 ， 而 且 甚 至 可 能 都 找 不 到 那个 第 一 家 酒 
馆 。 这 就 像 往 城市 的 地 图 上 里 飞 镖 ， 希 望 飞镖 能 恰好 落 在 酒馆 上 。 


贝 叶 斯 网 络 中 的 推理 不 仅 限于 计算 概率 ， 它 也 包括 为 证 据 找 到 最 
可 信 的 解释 方法 ， 最 能 解释 症状 的 疾病 或 者 最 能 解释 Siri 听 到 的 声 首 的 
词语 。 这 和 只 是 在 每 步 挑 最 合适 的 词语 不 一 样 ， 因 为 在 考虑 声音 的 情 
况 下 ， 单 个 出 现 可 能 性 大 的 词语 ， 一 起 出 现时 可 能 性 残 不 那么 大 了 ， 
在 “Call the please” 的 例子 中 束 是 如 此 。 可 是 ， 相 同 种 类 的 算法 也 可 以 
对 这 个 任务 起 效 (实际 上 ， 多 数 语 首 识别 器 会 用 到 它们 ) 。 最 重要 的 
是 ， 推 理 包 括 做 最 佳 决 是， 引导 这 些 决定 的 ， 不 仅仅 是 不 同 结果 的 概 
率 ， 还 有 相应 的 成 本 (或 者 使 用 这 些 技术 术语 的 实用 工具 ) 。 忽 略 你 
老板 的 邮件 ， 安 排 你 明天 该 做 的 事情 ， 这 比 看 到 垃圾 邮件 付出 的 代价 
还 要 大 ， 所 以 很 多 时 候 最 好 允许 邮件 通过 ， 即 使 有 时 候 它 很 有 可 能 是 
垃圾 邮件 。 


无 人 敬 驶 车 辆 和 其 他 机 器 人 古 实 践 中 概率 推理 的 最 好 例子 。 随 着 
车 转悠 起 来 ， 它 同时 会 构建 行驶 领域 的 地 图 ， 越 来 越 肯定 地 找到 它 在 
地 图 上 的 方位 。 根 据 最 近 的 一 项 调查 ， 伦 敦 的 出 租车 司机 大 脑 靠 后 的 
海马 区 域 比 常 人 要 大 ， 这 是 一 个 涉及 记忆 和 地 图 形成 的 大 脑 区 域 ， 
为 他 们 要 掌握 城市 的 布局 。 也 许 他 们 利用 的 是 相似 的 概率 推理 算法 ， 
这 和 人 类 的 情况 整 不 一 样 ， 饮 酒 似乎 并 不 能 帮 上 什么 忙 。 


掌握 贝 叶 斯 学 派 的 方法 


既然 我 们 (多 多 少 少 ) 知道 了 如 何 解 决 推 理 难题 ， 就 可 以 从 数据 
中 掌握 贝 叶 斯 网 络 了 ， 因 为 对 于 贝 叶 斯 学 派 来 说 ， 学 习 只 是 男 一 种 形 


式 的 概率 推理 。 你 需要 做 的 只 是 运用 贝 叶 斯 定理 ， 把 假设 当 作 可 能 的 
原因 ， 把 数据 当 作 观察 到 的 效果 : 


P (假设 | 数据 ) =P (假设 ) xP (数据 | 假设 ) /P (数据 ) 


假设 可 以 和 整个 贝 叶 斯 网 络 一 样 复杂 ， 或 者 和 硬币 正面 朝 上 的 概 
率 一 样 简单 。 在 后 一 个 例子 中 ， 数 据 仅 仅 是 一 系列 抛 和 硬币 行为 的 结 
果 。 例 如 ， 如 果 我 们 抛 100 次 硬币 ， 有 70 次 正面 朝 上 ， 频 率 论 者 会 估算 
正面 朝 上 的 概率 为 0.7。 根 据 所 谓 的 “ 极 大 似 然 法 ” (maximum likelihood 
principle) ， 这 是 有 道理 的 : 在 所 有 正面 朝 上 的 可 能 概率 中 ，0.7 是 在 
抛 100 次 ， 有 70 次 正面 朝 上 的 情况 下 最 有 可 能 的 概率 。 假 设 成 立 的 可 能 
性 是 P (数据 | 假设 ) ， 而 该 法 则 称 ， 我 们 应 该 选择 那个 能 将 该 概率 最 
大 化 的 假设 。 即 便 如 此 ， 贝 叶 斯 学 派 做 事 更 加 仔细 。 他 们 指出 ， 我 们 
从 来 无 法 肯定 哪个 假设 是 真 的 ， 所 以 我 们 不 只 是 挑 一 个 假设 ， 比 如 硬 
币 正 面 朝 上 的 概率 是 0.7;， 相 反 ， 应 该 计算 每 个 可 能 假设 的 后 验 概率 ， 
然后 在 做 预测 时 容纳 所 有 假设 。 所 有 假设 的 概率 之 和 必须 等 于 1， 那 么 
如 果菜 个 假设 的 概率 增 大 ， 男 一 个 则 变 小 。 实 际 上 ， 对 于 贝 叶 斯 学 派 
来 说 ， 没 有 所 谓 的 真相 。 你 有 一 个 优先 于 假设 的 分 布 ， 在 见 到 数据 
后 ， 它 变 成 了 后 验 分 布 ， 这 是 贝 叶 斯 定理 给 出 的 说 法 ， 也 或 是 贝 叶 斯 
定理 的 全 部 。 


这 与 传统 科学 运作 的 方式 相 青 离 。 这 束 像 在 说 :“ 实 际 上 ， 哥 日 尼 
和 托 勒 密 都 不 对 ， 让 我 们 只 预测 星球 未 来 的 轨迹 ， 假 定 地 球 绕 着 太阳 
转 ， 反 过 来 也 成 立 ， 然 后 对 结果 取 平 均值 。” 


当然 ， 这 是 一 个 加 权 平 均值 ， 假 设 作为 其 后 验 概率 的 权 值 ， 那 么 
能 更 好 地 解释 数据 的 假设 会 更 有 价值 。 另 外 ， 吏 像 玩 突 说 的 那样 ， 加 
入 贝 叶 斯 学 派 意 味 着 绝 不 用 说 你 对 某 事 很 肯定 。 


不 用 说 ， 携 带 不 止 一 个 而 是 大 量 的 假设 是 一 种 巨大 的 痛苦 。 在 掌 
握 贝 叶 斯 网 络 的 例子 中 ， 我 们 做 预测 的 方法 应 该 是 对 所 有 可 能 的 贝 叶 


斯 网 络 取 平 均值 ， 包 括 所 有 可 能 的 图 形 结构 ， 以 及 每 个 结构 的 所 有 可 
能 的 参数 值 。 在 某 些 情况 下 ， 我 们 可 以 以 封闭 形式 对 参数 取 平 均值 ， 
但 因为 各 种 结构 ， 进 行 得 不 顺利 。 举 个 例子 ， 我 们 可 以 将 马尔 可 夫 链 
蒙特 卡 阁 理论 运用 到 网 络 的 空间 中 ， 随 着 马尔 可 夫 链 的 发 展 ， 从 这 个 
可 能 的 网 络 跳 到 另外 一 个 网 络 。 将 该 复 洒 性 与 计算 成 本 和 贝 叶 斯 有 争 
议 的 概念 〈 真 的 没有 所 谓 的 客观 事实 ) 结合 起 来 ， 就 不 难 知道 为 什么 
20 世 纪 频 率 论 一 直 主 导 科 学 界 。 


然而 贝 叶 斯 法 还 是 有 可 取 之 处 的 ， 其 中 有 一 些 主 要 原因 。 可 取 之 
处 在 于 ， 很 多 时 候 ， 几 乎 所 有 的 假设 都 会 以 微小 的 后 验 概率 作为 结 
尾 ， 而 我 们 可 以 安然 地 忽略 它们 。 实 际 上 ， 只 考虑 单个 最 可 能 的 假设 
通常 是 一 种 非常 好 的 近似 方法 。 假 设 我 们 对 于 抛 硬币 问题 的 先 验 分 布 
是 : 正面 朝 上 的 所 有 概率 均 相 等 。 看 到 连续 抛 硬币 的 结果 ， 这 个 效果 
是 将 分 布 越 来 越 多 地 集中 到 与 数据 最 为 一 致 的 假设 上 。 例 如 ， 如 果 h 包 
含 正面 朝 上 的 可 能 概率 ， 且 一 枚 硬币 正面 朝 上 的 概率 为 0.7， 我 们 会 看 
到 图 6-6 。 


每 次 抛 完 便 币 的 后 验 概 率 变 成 抛 下 一 次 人 硬币 的 先 监 概率， 抛 了 一 
次 又 一 次 ， 我 们 越 来 越 肯 定 h=0.7。 如 果 我 们 只 认 准 这 一 单个 最 可 能 假 
设 (在 这 个 例子 中 ，h=0.7) ， 这 样 贝 叶 斯 法 和 频率 论 法 就 变 得 很 相 
似 ， 但 有 一 个 关键 的 不 同 点 : 贝 叶 斯 学 派 考虑 先 验 的 P (假设 ， 而 
不 仅仅 是 可 能 性 P (数据 | 假设 )” [数据 先 验 P (数据 ) 可 以 忽略 ， 因 
为 它 对 于 所 有 假设 来 说 都 一 样 ， 所 以 不 会 影响 获胜 者 的 选择 ] 。 如 果 
我 们 愿意 假定 所 有 的 假设 都 和 先 验 概率 均等 ， 那 么 贝 叶 斯 法 现在 束 侧 
化 为 极 大 似 然 法 。 因 此 贝 叶 斯 学 派 可 以 对 频率 论 者 说 :“ 看 ， 你 做 的 仅 
是 我 们 所 做 部 分 工作 的 特例 ， 但 至 少 我 们 能 够 使 目 己 的 假设 清楚 明 
白 。” 而 如 果 假 设 与 先 验 概 率 不 均等 ， 那 么 极 大 似 然 法 的 隐 含 假设 〈 假 
设 和 先 验 概 率 均 等 ) 会 给 出 错误 的 答案 。 


P(h ) 扫 10 次 硬币 扫 20 次 硬币 


07 h oO7 而 O07 h 


图 6-6 


这 束 像 一 场 理论 性 的 讨论 ， 却 得 出 惊人 的 实践 性 结果 。 如 有 果 我 们 
只 看 了 一 次 抛 硬 币 ， 而 结果 是 正面 朝 上 ， 极 大 似 然 理 论 会 说 正面 朝 上 
的 概率 是 1。 这 可 能 非常 不 准确 ， 而 当 硬 币 反 面 朝 上 时 ， 会 让 我 们 措 手 
不 及 。 一 旦 我 们 看 过 很 多 抛 硬币 行为 ， 估 算 起 来 就 更 可 靠 ， 但 在 许多 
问题 中 ， 我 们 无 法 看 到 足够 多 次 数 的 “ 抛 硬币 ”， 无 论 数 据 有 多 大 。 假 
定单 词 “supercalifragilisticexpialidocio us” 在 我 们 的 训练 数据 中 从 未 在 垃 
圾 邮件 中 出 现 过 ， 而 是 出 现在 一 封 讨论 《欢乐 满 人 间 》 的 邮件 中 。 接 
下 来 ， 包 含 极 大 似 然 概 率 估算 功能 的 朴素 贝 叶 斯 垃圾 邮件 过 滤 丹 会 决 
定 包含 该 词 的 邮件 不 是 垃圾 邮件 ， 尽 管 邮件 中 的 其 他 词 喊 着 :“ 垃 圾 邮 
件 ! 垃圾 邮件 ! ”相反 ， 贝 叶 斯 学 派 会 赋予 这 个 词 较 低 但 韭 0 的 概率 ， 
让 其 出 现在 垃圾 邮件 中 ， 同 时 允许 其 他 词语 将 其 覆盖 。 


如 果 我 们 努力 掌握 贝 叶 斯 网 络 的 结构 和 它 的 参数 ， 问 题 只 会 变 得 
更 糟糕 。 我 们 可 以 通过 疏 山 法 来 做 到 这 一 点 ， 由 空 的 网 络 (没有 得 
头 ) 开始 ， 添 加 最 能 提高 可 能 性 的 稍 头 ， 以 此 类 推 ， 直 到 箭头 不 再 起 
改善 作用 。 壮 憾 的 是 ， 这 很 快 束 会 引起 大 范围 过 拟 合 ， 网 络 会 将 零 概 
率 分 配给 未 在 数据 中 出 现 的 所 有 状态 。 贝 叶 斯 学 派 可 以 做 更 有 意思 的 
事情 。 他 们 可 以 利用 先 验 分 布 来 编码 专家 对 该 问题 的 观点 一 一 他 们 对 
休 席 问题 的 回答 。 例 如 ， 我 们 可 以 为 医学 诊断 设计 一 个 原始 贝 叶 斯 网 
络 ， 方 法 就 古 采 访 医 生 ， 询 问 他 们 哪些 症状 可 能 会 对 应 哪些 疾病 ， 并 


添加 相应 的 币 头 。 这 就 是 “ 先 验 网 络 ?”， 而 先 答 分 布 可 以 通过 添加 或 移 
除 箭头 的 数量 来 惩 如 替代 网 络 。 医 生 也 不 是 完全 可 靠 的 ， 所 以 我 们 让 
数据 来 覆盖 它们 : 如 果 通 过 添加 数据 来 提高 可 能 性 比 惩 斑 重 要 ， 我 们 
会 做 这 件 事 


当然 ， 频 率 论 者 正 意识 到 这 个 问题 ， 而 且 他 们 的 回答 ， 举 个 例 
子 ， 是 通过 某 因素 来 增加 可 能 性 ， 该 因素 会 惩罚 更 多 的 复杂 网 络 。 但 
这 时 候 频率 论 和 贝 叶 斯 学 派 融 无 法 区 别 了 ， 而 你 把 计 分 函数 称 作 *“ 签 四 
似 然 ” 还 是 “后 验 概率 ”就 是 喜好 的 问题 了 。 


尽管 频率 论 者 和 贝 叶 斯 学 派 在 一 些 问 题 上 存在 分 收 ， 对 于 概率 的 
舍 义 也 存在 哲学 上 的 关 异 。 认 为 概率 包含 主观 性 让 许多 科学 家 感到 略 
有 不 安 ， 但 如 果 没 有 这 一 点 ， 很 多 用 还 吏 被 禁止 了 。 如 采 你 是 频率 论 
者 ， 那 么 只 能 对 那些 发 生 次 数 超 过 一 次 的 事件 的 概率 进行 估算 。 所 以 
像 “ 布 拉 里 :克林顿 在 下 一 轮 尽 统 范 克 中 打败 杰 布 -布什 的 概率 是 多 少 ” 这 
样 的 问题 则 无 法 回答 ， 因 为 没有 哪 场 吝 远 的 目的 是 让 他 们 互相 竞争 。 
但 对 于 贝 叶 斯 学 者 来 说 ， 概 率 钙 包含 主观 程度 的 信任 ， 所 以 他 可 以 目 
由 地 做 有 根据 的 猜测 ， 而 且 推 理 演 算 会 使 他 所 有 的 猜想 都 一 致 。 


贝 叶 斯 法 不 仅仅 适用 于 学 习 贝 叶 斯 网 络 ， 还 适用 于 其 特殊 情况 
(相反 ， 尽 管 它 们 的 名 字 如 此 ， 贝 叶 斯 网 络 并 非 一 定 束 是 贝 叶 斯 学 派 
的 : 频率 论 者 也 可 以 掌握 它们 ， 正 如 我 们 刚 看 到 的 那样 ) 。 我 们 可 以 
将 先 验 分 布置 于 任意 级 别 的 假设 中 (规则 组 、 神 经 网 络 、 程 序 ) 然后 
在 给 定数 据 的 条 件 下 ， 利 用 假设 的 可 能 性 来 对 其 进行 更 新 。 贝 叶 斯 学 
派 的 观点 束 是 ， 选 择 什 么 表示 方法 由 你 决定 ， 但 得 利用 贝 叶 斯 定理 来 
掌握 它 。20 世 纪 90 年 代 ， 他 们 声势 浩大 地 接管 了 神经 信息 处 理 系统 国 
际会 议 (NIPS) ， 即 联结 学 派 研 究 的 主 会 场 。 其 中 的 罪魁 祸首 (可 以 
这 么 说 ) 包括 大 卫 . 麦 凯 、 雷 德 福 : 尼 尔 、 迈 克 尔 :乔丹 。 麦 凯 是 英国 
人 ， 是 加 州 理工 学 院 约翰 , 堆 普 菲尔德 的 学 生 ， 后 来 成 为 英国 能 源 部 的 
目 友 科学 顾问 ， 他 表明 了 如 何 通 过 贝 叶 斯 法 来 学 习 多 层 感 知 器 。 尼 尔 


问 联 结 学 派 介 绍 MCMC， 而 乔丹 则 回 他 们 介绍 变 分 推理 。 最 终 ， 他 们 
指出 在 限制 范围 内 ， 你 可 以 在 多 层 感 知 句 中 “集中 ”神经 元 ， 剩 下 一 种 
未 提 到 它们 的 贝 叶 斯 模型 。 不 久 以 后 ， 在 加 NIPS 提 区 的 论文 中 , “和 神 
经 的 ”一 词 很 好 地 表达 了 “拒绝 ”的 意思 。 有 些 研 究 人 员 开 玩笑 称 ， 该 会 
议 应 该 改名 为 BIPS， 即 “ 贝 叶 斯 信息 处 理 系 统 ” (Bayesian Information 
Processing Systems) 。 


马尔 可 夫 权 衡 证 据 


但 在 通 往 统治 世界 的 路 上 发 生 了 有 趣 的 事情 。 利 用 贝 叶 斯 模型 的 
研究 人 员 注 意 到 ， 如 果 你 用 非法 的 方式 来 调整 概率 ， 得 出 的 结 采 会 更 
好 。 例 如 ， 在 语音 识别 器 中 ， 通 过 调整 P (词语 ) 可 以 提高 准确 率 ， 但 
它 束 不 再 十 贝 叶 斯 定理 了 。 发 生 了 什么 ? 结果 是 ， 问 题 的 原因 在 于 生 
成 模型 做 出 的 错误 独立 性 假设 。 简 化 的 图 形 结构 使 模型 变 得 可 掌握 ， 
而 且 值 得 保留 ， 不 过 因为 手头 任务 ， 我 们 最 好 只 掌握 目 己 能 力 范围 内 
的 最 佳 参 数 ， 无 论 它们 是 否 为 概率 。 朴 素 贝 叶 斯 法 的 一 个 真正 优势 在 
于 ， 可 以 提供 少量 而 有 信息 量 的 特征 ， 通 过 这 些 特征 可 以 预测 级 别 。 
另外 ， 它 还 可 以 提供 快速 、 稳 健 的 方法 来 掌握 相应 的 参数 。 在 垃圾 邮 
件 过 滤器 中 ， 每 个 特征 都 是 某 个 特定 的 词语 出 现在 垃圾 邮件 中 ， 而 相 
应 的 参数 是 它 发 生 的 频率 是 多 少 ， 对 于 非 垃 圾 邮件 也 是 同样 的 道理 。 
以 这 种 方式 来 看 ， 考 虑 到 把 最 佳 预测 变 成 可 能 ， 甚 至 在 很 多 情况 下 其 
独立 性 假设 受到 严重 违背 ， 朴 素 贝 叶 斯 可 能 是 最 优 的 。 当 我 意识 到 这 
一 点 ， 并 于 1996 年 发 表 一 篇 关于 它 的 论文 时 ， 人 们 对 于 朴素 贝 叶 斯 的 
怀疑 消解 了 ， 并 帮助 它 取 得 成 功 。 但 它 也 回 不 同 的 模型 迈 出 了 一 步 ， 
该 模型 在 过 去 20 年 中 已 渐渐 取代 贝 叶 斯 网 络 ， 它 就 是 马尔 可 夫 网 络 。 


马尔 可 夫 网 络 是 一 组 特征 以 及 对 应 的 权 值 ， 特 点 和 权 值 共同 定义 
概率 分 布 。 特 征 可 以 和 “这 是 一 首 民歌 "一样 简单 ， 也 可 以 与 “这 是 一 首 


由 嘲 哈 乞 术 家 创作 的 民歌 ， 有 辽 克 斯 的 重复 乐 段 和 递 降 的 和 弦 部 分 ”一 
样 复杂 。 潘 多 拉 利 用 一 大 组 特征 ， 它 将 其 称 为 音乐 基因 组 计划 ”， 目 
的 是 为 你 挑选 要 播放 的 歌曲 。 假 定 我 们 将 它们 与 马尔 可 夫 网 络 接 通 ， 
那 会 怎么 样 ? 如 条 你 喜欢 民歌 ， 相 应 特征 的 权 值 会 上 升 ， 而 当 你 打开 
话 多 拉 时 ， 更 有 可 能 听 到 民歌 。 如 果 你 也 喜欢 听 嘻 哈 忆 术 家 创作 的 歌 
曲 ， 该 特征 的 权 值 也 会 上 升 。 这 时 你 最 有 可 能 听 到 的 歌曲 同时 包含 这 
两 种 特征 ， 即 民歌 和 嘻哈 乞 术 家 的 创作 特点 。 如 采 你 不 喜欢 民歌 或 者 
不 喜欢 嘻哈 忆 术 家 本 身 ， 而 只 喜欢 两 者 的 结合 ， 那 么 你 想 要 的 是 具备 
更 加 复杂 特征 的 “嘻哈 万 术 家 创作 的 民歌 *。 潘多拉 的 特征 由 手工 创 
造 ， 但 在 马尔 可 夫 网 络 中 我 们 也 可 以 利用 疏 山 法 来 掌握 特征 ， 这 与 规 
则 归纳 相似 。 不 管 怎样 ， 梯 度 下 降 是 掌握 权 值 的 一 种 好 方法 。 


像 贝 叶 斯 网 络 一 样 ， 马 尔 可 夫 网 络 可 以 通过 图 表 来 表示 ， 但 它们 
用 无 问 弧 而 不 用 箭头 。 两 个 变量 被 联结 起 来 ， 这 和 意味 着 它们 会 直接 相 
互 依赖 ， 如 果 它 们 一 起 出 现在 某 个 体征 中 ， 例 如 ,“ 由 嘻哈 艺术 家 创作 
的 民歌 ”中 的 “民歌 ?和 “由 吐 哈 忆 术 家 创作 ”。 


马尔 可 夫 网 络 在 许多 领域 中 能 起 到 主要 作用 ， 例 如 ， 计 算 机 视 
觉 。 举 个 例子 ， 一 辆 无 人 区 驱车 辆 需 把 看 到 的 每 张 独 片 分 成 道路 、 天 
空 、 村 庄 三 个 部 分 。 有 一 个 选择 融 是 根据 其 颜色 ， 将 每 个 像素 标记 为 
三 个 部 分 中 的 一 个 ， 但 这 种 选择 不 够 好 。 图 片 充 满 嘲 杂 因 素 和 变量 ， 
车 辆 会 出 现 和 4 觉 ， 想 象 道 路 旁 布 满 岩石 ， 还 有 天 空中 出 现 的 一 段 段 公 
路 。 但 是 我 们 知道 ， 图 片 中 近似 的 像素 通常 属于 同一 物体 ， 而 我 们 可 
以 引入 相应 的 一 组 特征 : 对 于 每 一 对 相 邻 像素 ， 如 果 它 们 属于 相同 物 
体 ， 则 特征 是 真 的 ， 否 则 是 假 的 。 现 在 有 大 段 连 续 街 区 公路 和 天 空 的 
图 片 比 没 有 这 些 的 图 片 更 有 可 能 ， 并 且 车 会 直 走 ， 而 不 是 不 断 左 右 转 
癌 来 避 开 想象 中 的 岩石。 


马尔 可 夫 网 络 可 以 经 过 训练 ， 来 最 大 化 整个 数据 的 可 能 性 ， 或 者 
在 知道 某 些 信息 的 情况 下 ， 将 我 们 想 预 测 的 事情 的 可 能 性 最 大 化 。 对 


于 Siri 来 说 ， 整 个 数据 的 可 能 性 是 P (单词 、 声 音 ) ， 而 我 们 感 兴趣 的 
条 件 可 能 性 是 P (单词 | 声音 ) 。 通 过 优化 后 者 ， 我 们 可 以 忽略 P ( 声 
音 ) ， 因 为 这 个 概率 只 会 使 我 们 偏离 目标 。 既 然 我 们 忽略 它 ， 它 可 以 
征 任意 复杂 的 。 这 比 HMM 不 切实 际 的 猜想 要 好 得 多 : 声音 只 依赖 于 对 
应 的 单词 ， 不 会 受到 周围 环境 的 任何 影响 。 实 际 上 ， 如 果 Siri 的 所 有 关 
心 找 出 你 刚才 说 的 话 ， 可 能 它 甚 至 束 不 用 担心 概率 问题 了 。 它 只 要 确 
保 在 计算 它们 特征 权 值 的 总 和 时 ， 正 确 单词 的 得 分 会 比 错误 单词 的 得 
分 高 ， 而 且 为 了 保险 ， 要 高 出 很 多 。 


类 推 学 派 用 这 种 推理 方式 得 出 其 逻辑 绪论， 正如 我 们 在 第 七 章 将 
看 到 的 那样 。 在 21 世 纪 的 前 10 年 ， 他 们 反 过 来 接管 NIPS。 现 在 联结 学 
派 打 痢 深 度 学 习 的 旗号 再 次 占据 主导 地 位 。 有 些 人 说 研究 总 是 处 于 循 
环 状态 ,但 它 更 像 一 个 螺旋 ， 闭 环 沿 着 前 进 的 方 同 绕 。 在 机 器 学 习 
中 ， 曙 旋 会 收敛 至 终极 算法 。 


逻辑 与 概率 ， 一 对 不 幸 的 组 合 


你 可 能 认为 贝 叶 斯 学 派 和 符号 学 派 相处 得 很 好 ， 因 为 考虑 到 他 们 
都 相信 学 习 的 第 一 原理 方法 ， 而 不 相信 和 目 然后 发 的 方法 。 事 实 远 不 是 
这 样 ， 符 号 学 派 不 喜欢 概率 ， 而 且 会 开 这 样 的 玩笑 :“ 换 个 电灯 泡 需 要 
多 少 个 贝 叶 斯 学 者 ?他们 不 确定 。 细 想 一 下 ， 原 来 他 们 是 不 确定 灯泡 
征 不 是 烧 坏 了 。 ?更 产 肃 地 说 ， 符 号 学 派 指出 我 们 因为 概率 而 付出 的 高 
昂 代 价 。 推 理 突 然 变 得 更 加 珍 贯 ， 所 有 那些 数据 都 变 得 难以 理解 ， 我 
们 得 处 理 好 移 验 概 率 ， 一 大 批 * 僵 尸 ” 假 设 会 永远 追 着 我 们 。 短 时 间 内 
将 分 获知 识 集中 起 来 的 能 力 ， 对 于 符号 学 派 来 说 是 多 么 重要 ， 却 已 经 
消失 。 最 糟糕 的 是 ， 我 们 不 知道 如 何 对 目 己 想 学 习 的 很 多 东西 进行 概 
率 分 配 。 贝 时 斯 网 络 是 在 变量 的 一 个 天 量 上 的 分 布 ， 但 在 网 络 、 数 据 


库 、 知 识 库 、 语 言 、 计 划 、 计 算 机 程序 上 的 分 布 呢 ?所 有 这 些 在 逻辑 
中 都 易于 处 理 ， 而 无 法 掌握 它们 的 算法 明显 可 不 是 终 极 算 法 。 


有 反 过 来 ， 贝 叶 斯 学 派 指 出 了 逻辑 的 脆弱 性 。 如 果 我 有 一 条 规则 ， 
如 " 乌 会 飞 "， 没 有 哪个 世界 会 存在 不 会 飞 的 乌 。 如 宁 我 想 补 充 一 下 ， 
加 上 例外 条 件 ， 例 如 ,“ 乌 会 飞 ， 除 非 它 们 征 企 斤 "， 那 么 这 些 例外 条 
件 永远 都 说 不 完 〈 紫 乌 呢 ? 笼 中 乌 呢 ? 死 乌 ? 断 了 翅膀 的 乌 ? 翅膀 湿 
了 的 鸟 ?% ) 。 有 个 医生 诊断 你 得 了 癌症 ， 而 你 想 听 不 同 的 意见 。 如 采 
第 二 个 医生 不 同意 ， 你 就 陷 入 困境 了 。 你 无 法 权衡 这 两 种 观点 ， 只 能 
两 个 部 相信 。 然 后 发 生 了 一 场 灾 祸 : 猪 会 飞 ， 永 恒 运 动 成 为 可 能 ， 而 
地 球 则 不 再 存在 ， 因 为 在 逻辑 当中 ， 任 何事 都 可 以 从 矛盾 中 推理 出 
来 。 再 者 ， 如 果 知 识 是 从 数据 中 掌握 得 来 的 ， 那 么 我 束 无 法 肯定 它 是 
对 的 。 为 什么 符号 学 派 却 假 装 肯 定 ? 无 疑 休 误会 对 这 样 漫 不 经 心 的 态 
度 感 到 不 满 。 


贝 叶 斯 学 派 和 符号 学 派 一 致 认为 ， 先 验 假设 不 可 避免 ， 但 对 于 他 
们 认可 的 先 验 知识 种 类 却 存 在 分 歧 。 对 于 贝 叶 斯 学 派 来 说 ， 知 识 越过 
模型 的 结构 和 参数 ， 进 入 先 验 分 布 中 。 原 则 上 ， 之 前 的 参数 可 以 是 任 
意 我 们 喜欢 的 值 ， 但 讽刺 的 是 ， 贝 叶 斯 学 派 趋 向 于 选择 信息 量 不 足 的 
先 验 假设 (比如 将 相同 概率 分 配给 所 有 假设 ) ， 因 为 这 样 更 易于 计 
算 。 在 任何 情况 下 ， 人 类 都 不 是 很 擅长 估算 概率 。 对 于 结构 这 方面 ， 
贝 叶 斯 网 络 提供 直观 的 方法 来 整合 知识 : 如 果 你 认为 A 直 接 引 起 B， 那 
么 应 把 箭头 从 A 指 同 B。 但 符号 学 者 则 要 有 灵活 得 多 : 作为 先 验 知识 ， 你 
可 以 为 目 己 的 学 习 算 法 提供 任何 能 用 逻辑 编码 的 东西 ， 实 际 上 ， 上 所 有 
东西 都 可 以 用 逻辑 编码 ， 只 要 它 是 黑白 色 的 。 


显然 ， 我 们 既 需 要 逻辑 ， 也 需要 概率 。 治 愈 癌 症 就 是 一 个 很 好 的 
例子 。 贝 叶 斯 网 络 可 以 从 单个 方面 模仿 细胞 如 何 起 作用 ， 残 像 基 因 调 
节 和 和 蛋 日 质 折 登 那 样 ， 但 只 有 逻辑 可 以 将 所 有 碎片 组 合 到 一 张 连贯 的 


图 片 中。 此 外 ， 逻 辑 无 法 处 理 不 完整 或 包含 吐 洒 因素 的 信息 ， 这 在 实 
验 生 物 学 中 较 普 裔 ， 但 贝 叶 斯 网 络 可 以 沉着 地 处 理 这 个 问题 。 


贝 叶 斯 学 习 能 对 单个 数据 表 起 作用 ， 表 中 的 每 列表 示 一 个 变量 
(例如 ， 一 个 基因 的 表达 水 平 ) ， 而 每 行 表示 一 个 实例 (例如 ， 一 个 
微 阵 列 实验 ， 包 含 每 个 基因 被 观察 到 的 水 平 ) 。 如 果 表 格 有 “漏洞 ”和 
测量 误差 不要紧， 因为 我 们 可 以 利用 概率 推理 来 弥补 漏洞 ， 然 后 对 
翅 壹 取 平 均值 。 但 如 果 我 们 拥有 的 表格 超过 一 个 ， 那 么 贝 叶 斯 学 习 丈 
会 集注 不 前 。 例 如 ， 它 不 懂 如 何 将 基因 表达 的 数据 与 DNA 厂 段 转 译 成 
蛋 日 质 的 数据 结合 起 来 ， 也 不 知道 那些 三 维 形状 的 蛋 日 质 如 何 反 过 来 
使 它们 锁定 到 DNA 分 子 的 不 同 部 分 中 ， 同 时 影响 其 他 基因 的 表达 。 利 
用 逻辑 ， 我 们 可 以 轻易 地 写 出 与 所 有 这 些 方面 相关 的 规则 ， 然 后 通过 
结合 相关 表格 来 对 它们 进行 学 习 ， 但 唯一 的 条 件 束 是 表格 没有 任何 汤 
洞 或 者 误差 。 


将 联结 学 派 和 进化 学 派 结 合 起 来 很 简单 : 只 要 改善 网 络 结构 ， 利 
用 反问 传播 来 掌握 参数 。 但 将 逻辑 和 概率 统一 起 来 要 困难 得 多 。 最 早 
等 斌 这么 做 的 人 是 亲 布 尼 次 ， 他 是 逻辑 和 概率 的 开拓 者 。 还 有 一 些 19 
一 20 世 纪 最 伟大 的 哲学 家 和 数学 家 ， 比 如 乔治 :布尔 和 和 鲁 道 夫 : 卡 尔 纳 
普 ， 他 们 都 努力 想 解决 这 个 问题 ， 但 最 终 没 有 走 得 很 和 还。 最 近 ， 计 算 
机 科学 家 和 人 工 智能 研究 人 员 加 入 了 这 场 争 论 。 随 着 21 世 纪 的 到 来 ， 
我 们 取得 的 最 好 成 果 也 是 不 完整 的 ， 比 如 将 一 些 逻 辑 结 构 加 入 贝 叶 斯 
网 络 中 。 多 数 专 家 相信 ， 将 逻辑 和 概率 相 统一 是 不 可 能 的 。 寻 求 一 个 
终极 算法 的 前 景 并 不 乐观 ， 特 别 原 因 在 于 ， 当 前 进化 学 派 的 和 联结 学 
派 的 算法 无 法 处 理 不 完整 的 信息 和 多 数据 组 。 


洱 运 的 是 ， 我 们 已 经 攻克 了 这 个 难题 ， 而 终极 算法 现在 看 起 来 离 
我 们 更 近 了 。 在 第 九 章 中 ， 我 们 会 看 到 人 类 是 如 何 做 到 这 一 点 的 ， 并 
做 出 推断 。 首 先 ， 我 们 要 找到 已 丢失 的 那 张 很 重要 的 拼图 :， 如何 学 习 
小 数据 。 在 当下 数据 洪流 的 育 景 下 ， 可 能 这 显得 没有 必要 ， 但 实际 上 


我 们 常常 会 发 现 ， 目 己 有 很 多 关于 要 解决 问题 的 数据 ， 而 天 于 其 他 问 
题 的 数据 则 几乎 没有 。 这 是 机 器 学 习 中 最 重要 的 思想 之 一 流行 起 来 的 
原因 : 类 比 思想 。 到 目前 为 止 ， 我 们 谈 到 的 所 有 学 派 有 一 个 共同 点 : 
他 们 都 学 习 人 研究 中 的 现象 的 显 式 模型 ， 无 论 它 是 一 组 规则 、 一 个 多 层 
感知 郁 、 一 个 基因 计划 ， 还 是 一 个 贝 叶 斯 网 络 。 当 他 们 没有 足够 的 数 
据 来 做 这 件 事 时 ， 就 会 被 难 住 。 但 类 比 学 派 可 以 从 甚至 小 到 一 个 例子 
的 数据 中 学 习 ， 因 为 他 们 绝 不 会 形成 一 种 模式 。 下 面 ， 让 我 们 看 看 他 
们 是 怎么 做 的 。 


第 七 草 
关 推 学 派 : 像 什 么 驶 是 什么 


弗兰克 : 阿 巴 内 尔 是 历史 上 最 臭名 昭著 的 骗子 之 一 ， 莱 昂 纳 多 : 迪 卡 
普 里 奥 曾 在 斯 皮尔 伯 格 的 电影 《 道 遥 法 外 》 中 饰演 阿 巴 内 尔 。 他 伪造 
价值 数 百 万 美元 的 文 票 ， 冒 充 律师 和 大 学 讲师 的 身份 ， 并 以 泛 美 航空 
飞行 员 的 假 映 份 环 游 世界 ， 这 些 都 发 生 在 他 21 周 罗 之 前 。 也 许 他 最 令 
人 吃惊 的 “事迹 ”， 就 是 在 20 世 纪 60 年 代 的 亚特兰大 成 功 假扮 医生 将 近 
一 年 之 久 。 行 医 应 该 需要 在 医学 院 学 习 多 年 ， 要 有 执照 、 实 习 期 等 诸 
如 此 类 的 东西 ， 但 阿 巴 内 尔 成 功 避 开 所 有 这 些 细节 ， 而 且 从 未 被 人 发 
现 。 


想象 一 下 如 何 去 冒 这 个 险 。 你 偷偷 措 措 进入 医生 不 在 的 办 公 室 ， 
不 久 后 有 个 病人 走 进 来 ， 并 把 他 所 有 的 症状 都 告诉 了 你 。 现 在 你 得 给 
他 诊断 ， 除 非 你 对 于 药物 一 办 不通。 你 只 有 一 柜子 的 病人 人 资料， 他 们 
的 证 状 、 诊 断 结 有 末 、 接 受过 的 治疗 等 。 你 该 怎么 办 ? 最 简单 的 办 法 就 
征 找 到 和 现在 这 个 病人 症状 最 相似 的 病人 的 资料 ， 然 后 做 相同 的 诊 
晰 。 如 采 你 对 行 病 人 的 态度 和 阿 巴 内 尔 一 样 有 说 服 力 ， 那 么 可 能 会 成 
功 。 在 医学 之 外 ， 同 样 的 思想 也 很 适用 。 如 果 你 是 一 名 年 轻 的 总 统 ， 
面临 世界 危机 ， 束 像 肯尼迪 当年 一 样 ， 当 时 美国 的 一 架 间 谍 机 报告 ， 
苏联 的 核 导 弹 被 部 署 在 古巴 ， 你 很 有 可 能 因为 经 验 不 足 而 措手不及 。 


你 可 以 找 历史 上 与 当前 情况 相似 的 场景 ， 然 后 竹 试 从 这 些 场 景 中 吸收 
经 验 。 参 谋 长 联席 会 议 吝 促 对 上 古巴 进行 约 击 ， 但 肯尼迪 那 时 刚 读 过 
《 八 月 炮火 》， 这 是 一 本 摘 写 第 一 次 世界 大 战 的 畅销 书 ， 所 以 他 知道 
那样 做 很 容易 会 引发 全 面 战争 。 所 以 他 选择 了 对 古巴 进行 海上 封锁 ， 
也 许 这 样 做 把 世界 从 核 战争 中 拯救 出 来 了 。 


类 比 旦 推动 许多 历史 上 最 伟大 科学 进步 的 动力 。 当 达尔 文 阅读 马 
尔 了 萨 斯 的 《人 口 论 》 时 ， 被 经 济 和 上 自然界 中 生存 竞争 的 相似 性 触动 ， 
所 以 有 了 目 然 选 择 理论 的 诞生 。 波 尔 的 原子 核 模 型 站 由 将 模型 看 作 微 
型 太阳 系 、 将 电子 看 作 行星 、 将 原子 核 看 作 太阳 而 产生 的 。 克 库 勒 也 
征 日 天 做 梦 梦 见 蛇 吃 目 己 的 尾巴 才 发 现 难 分 子 的 环 状 结构 的 。 


类 比 推理 有 着 突出 的 知识 谱系 。 亚 里 士 多 德 在 他 的 相似 律 中 就 表 
达 了 这 一 点 : 如 果 两 个 事物 相似 ， 其 中 的 一 个 想法 会 触发 男 外 一 个 想 
法 。 诸 如 洛克 和 休 谨 之 类 的 经 验 主义 者 就 追随 这 个 规律 。 尼 采 说 ， 真 
理 是 一 文 由 暗喻 拟人 组 成 的 队伍 。 康 德 也 是 其 中 的 信奉 者 。 威 廉 : 钴 姆 
斯 认为 : “这 种 意义 上 的 一 致 性 是 我 们 思想 的 文 柱 。 ”一些 当时 的 心理 
学 家 甚至 认为 从 整体 上 看 ， 人 类 认 知 是 分 析 必 不 可 少 的 部 分 。 我 们 依 
靠 它 来 找到 通 往 新 城市 的 道路 ， 并 理解 诸如 “领悟 ”形象 高 大 ”之 类 的 
表达 。 那 些 十 几 多 、 喜 欢 说 话 时 在 每 个 句子 中 加 入 “ 像 " 的 人 也 许 喜 欢 
且 认 为 类 别 是 重要 的 。 


著 虚 到 这 一 点 ， 类 比 在 机 器 学 习 中 扮 党 重 要 角色 就 不 足 为 奇 。 
刚 开 始 它 进展 缓慢 ， 甚 至 被 神经 网 络 村 走 了 光芒 。 它 的 第 一 个 算法 的 
化 身 出 现在 一 份 写 于 1951 年 、 名 不 见 经 传 的 技术 报告 中 ， 作 者 是 两 位 
伯克利 的 统计 学 家 一 一 伊 夫 琳 . 菲 克 斯 和 乔 . 截 奇 斯 。 这 篇 报告 几 十 年 之 
后 才 发 表 于 主流 期 刊 中 。 但 同时 ， 关 于 菲 区 斯 和 和 截 奇 斯 的 算法 的 论文 
也 开始 出 现 ， 后 来 逐渐 增加 ， 直 到 它 成 为 计算 机 科学 界 中 受到 人 研究 最 
多 的 文章 之 一 。 最 近邻 算法 ， 正 如 其 名 ， 是 我 们 类 比 学 习 法 之 旅 的 第 
一 站 。 第 二 站 是 文 持 同 量 机 ， 这 是 世纪 之 交 风 靡 机 天 学 习 领 域 的 原 


理 ， 但 最 近 风 头 被 深度 学 习 掩 盖 。 第 三 站 也 是 最 后 一 站 ， 十 成 熟 的 类 
比 推理 法 ， 几 十 年 来 是 心理 学 和 人 工 智能 的 重要 组 成 部 分 ， 也 是 几 十 
年 来 机 絮 学 习 领 域 的 背景 主题 。 


5 个 学 派 中 ， 类 推 学 派 古 最 不 具有 凝聚 力 的 一 个 学 派 。 不 像 其 他 学 
派 有 很 强 的 身份 意识 和 共同 理想 ， 类 推 学 派 则 更 像 研究 人 员 松散 的 集 
合体 ， 他 们 的 统一 依靠 的 是 对 于 作为 学 习 基 础 的 、 相 似 性 判断 的 信 
任 。 一 些 人 ， 比 如 支持 向 量 机 的 支持 者 甚至 可 能 会 反对 将 自己 归 入 这 
个 范畴 。 但 我 认为 如 采 人 们 能 为 共同 的 事业 而 努力 ， 会 受 番 很 多 。 在 
机 器 学 习 中 ， 相 似 性 是 核心 思想 之 一 ， 而 类 推 学 派 会 以 各 种 仿效 的 方 
式 来 体 护 它 。 也 许 在 未 来 10 年 ， 机 器 学 习 会 被 深度 类 比 统治 ， 在 某 种 
算法 中 ， 与 最 近邻 法 的 高 效 、 文 持 辣 量 机 的 数学 精密 性 、 类 比 推理 的 
力量 和 灵活 性 结合 ( 瞎 ， 我 又 泄露 了 自己 的 一 个 秘密 研究 计划 ) 。 


完美 男 一 半 


最 近邻 算法 是 人 类 有 史 以 来 发 明 的 最 简单 、 最 快速 的 学 习 算 法 。 
实际 上 ， 你 甚至 可 以 说 ， 这 是 人 类 可 以 发 明 的 最 快速 的 算法 。 它 可 以 
说 什么 也 不 做 ， 所 以 伦 在 运行 上 的 时 间 为 零 。 再 没有 比 这 个 更 好 的 
了 。 如 采 想 掌握 面部 识别 技巧 ， 且 有 大 量 标 有 脸 部 或 非 脸 部 标签 的 图 
片 ， 你 只 需 让 算法 竺 在 那儿 惑 好 。 别 担心 ， 高 兴起 来 吧 。 在 不 知道 的 
情况 下 ， 那 些 图 片 已 经 暗中 形成 天 于 “什么 是 脸 ” 的 模型 。 假 设 你 是 脸 
书 ， 想 在 照片 上 目 动 识别 人 脸 ， 人 和 人们 上 传 这 些 照片 ， 束 是 用 朋友 的 名 
字 来 标记 这 些 照片 的 前 奏 。 不 用 做 什么 是 一 件 好 事 ， 只 要 脸 书 用 户 每 
天 上 传 超过 3 亿 张 照片 就 可 以 了 。 将 目前 为 止 我 们 见 过 的 学 习 算 法 (可 
能 要 排除 朴素 贝 叶 斯 法 这 个 例外 ) 应 用 到 这 些 照片 上 ， 可 能 需要 一 卡 
车 计算 机 ， 而 贝 叶 斯 算法 的 智能 程度 还 不 足以 用 来 识别 脸 部 。 


当然 ， 这 是 要 付出 代价 的 ， 这 个 代价 在 测试 时 会 出 现 。 名 叫 简 的 
用 户 刚 上 传 一 张 新 的 照片 。 这 有 是 一 张 脸 吗 ? 最 近邻 算法 的 回答 是 : 在 
今 书 所 有 标记 过 的 照片 库 中 ， 找 到 那 张 和 这 张 最 相似 的 照片 〈 它 的 “最 
近邻 ”) 如 果 那 张 照片 包含 一 张 脸 ， 这 张 也 会 有 。 这 足够 简单 ， 但 理想 
的 情况 下 ， 你 得 在 不 到 一 秒 的 时 间 内 浏 蜗 近 几 十 亿 张 照 请 。 束 像 一 个 
不 想 为 考试 而 学 习 的 懒 学 生 ， 最 近邻 算法 此 时 狮 不 及 防 ， 不 得 不 断 断 
续 续 地 运行 。 不 像 在 现实 生活 中 ， 你 的 妈妈 会 跟 你 说 不 要 把 今天 可 以 
做 的 事 留 到 明天 ， 在 机 器 学 习 中 ， 拖 延 真 的 可 以 带 来 成 功 。 实 际 上 ， 
学 习 的 整个 风格 (最 近 领 算法 是 其 中 一 种 有 时 会 被 人 们 称 为 “懒惰 学 
习 算 法 ”， 在 这 种 情况 下 ， 这 个 术语 并 没有 什么 岂 义 。 


懒惰 学 习 算法 之 所 以 比 它 表 面 看 起 来 更 加 智能 ， 是 因为 虽然 它 的 
模型 是 隐 性 的 ， 但 其 实 它 可 以 很 复杂 。 考 虑 到 极端 的 情况 下 ， 每 个 等 
级 我 们 只 能 有 一 个 例子 。 例 如 ， 我 们 想 知道 两 个 国家 的 边界 在 哪里 ， 
但 我 们 知道 的 仅仅 是 其 首都 的 位 置 。 多 数学 习 算 法 可 能 会 被 难 住 ， 但 
最 近邻 算法 会 恰当 地 猜 出 ， 边 界 会 是 一 条 线 ， 位 于 两 个 城市 的 中 间 位 
置 ( 见 图 7-1) 。 
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图 7-1 


边界 上 的 点 距离 两 个 首都 的 距离 都 一 样 ， 边 界线 左边 的 点 距离 
Positiville 市 较 近 ， 因 此 最 近邻 算法 假定 这 些 点 是 Posistan 国 的 一 部 分 ， 
反之 亦 然 。 如 有 果 那 条 线束 是 准确 的 边界 ， 当 然 是 万 和 位 ， 但 作为 一 种 近 
似 法 ， 很 有 可 能 这 条 线 什么 也 不 是 。 当 我 们 知道 边界 线 两 边 都 有 很 多 
城市 时 ， 事 情 才 真正 变 得 有 趣 起 来 〈 见 图 7-2) 。 
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图 7-2 


最 近邻 算法 可 以 暗中 形成 一 条 非常 复杂 的 边界 线 ， 虽 然 它 所 做 的 
只 是 记 住 每 个 城市 的 位 置 ， 然 后 将 这 些 点 相应 地 分 给 每 个 国家 。 我 们 
可 以 将 城市 的 “ 城 域 " 看 作 那 些 最 靠近 该 城市 的 点 ， 城 域 之 间 的 界线 在 
图 中 用 虚线 来 表示 。 现 在 Posistan 只 是 它 的 所 有 城市 城 域 的 集合 ， 和 
Negaland 一 样 。 相 反 ， 决 策 树 ( 举 个 例子 ， 也 许 只 会 形成 不 是 南北 向 
束 古 东西 向 的 边界 ， 可 能 更 不 利于 找到 真正 的 边界 。 因 此 ， 虽 然 决策 
树 算法 “愿望 更 加 强烈 ?， 在 学 习 期 间 很 努力 地 想 弄 明日 边界 线 的 位 
置 ， 但 “ 懒 迟 的 ”最 近邻 算法 实际 上 最 后 会 胜出 。 


懒惰 学 习 算 法 会 胜出 的 原因 在 于 ， 和 构建 全 局 模型 〈 例 如， 决策 
树 ) 相 比 ， 只 要 每 次 弄 明 白 指 定 的 点 在 哪里 会 较为 简单 。 想 象 一 下 ， 
利用 决策 树 来 洽 试 确定 什么 是 脸 。 你 可 以 说 ， 脸 有 两 只 眼睛 、 一 个 县 
子 和 一 张嘴 ， 但 什么 是 眼睛 ， 而 你 在 一 张 图 片 中 怎样 才能 找到 它 呢 ? 


如 条 人 的 眼睛 是 财 上 的 ， 那 又 会 怎样 呢 ? 准确 定义 一 张 脸 ， 细 到 每 个 
像素 ， 这 是 十 分 困难 的 ， 在 表情 、 姿 态 、 背 景 、 光 线条 件 各 异 的 情况 
下 无 长 。 而 最 近邻 算法 则 走 捷径 : 如 果 数 据 库 中 与 简 上 传 的 最 相似 的 
那 张 照片 是 脸 部 照片 ， 那 么 简 的 照片 也 是 。 要 出 现 这 种 情况 ， 数 据 库 
忠 得 有 一 张 照片 ， 与 新 照片 足够 相似 ， 因 此 ， 数 据 库 越 大 越 好 。 对 于 
一 个 简单 的 二 维 问题 ， 比 如 猜 出 两 个 国家 的 边界 ， 一 个 小 数据 库 殉 足 
人 够 了 。 对 于 一 个 很 难 的 问题 来 说 ， 如 识别 脸 部 ， 因 为 每 个 像素 的 颜色 
都 是 变化 的 一 个 维度 ， 所 以 需要 巨大 的 数据 库 。 目前 我 们 有 这 些 数据 
库 。 但 对 于 泡 望 学 习 的 算法 来 说 ， 要 从 这 些 数 据 库 中 学 习 东 西 可 能 代 
价 很 大 ， 因 为 这 种 算法 要 明确 划分 脸 部 和 非 脸 部 的 界线 。 然 而 ， 对 于 
最 近邻 算法 来 说， 界线 隐 舍 在 数据 点 和 距离 度量 中 ， 而 唯一 要 付出 的 
就 是 查询 时 间 。 


构建 局 部 模型 而 非 全 局 模型 的 相同 想法 可 以 应 用 于 分 类 之 外 的 用 
途 。 通 常 科 学 家 们 利用 线性 回归 来 预测 连续 变量 ， 但 大 多 数 现象 是 非 
线性 的 。 滁 运 的 是 ， 从 局 部 来 看 ， 它 们 是 线性 的 ， 因 为 平 光 曲线 可 以 
局 部 近似 为 直线 。 因 此 如 有 果 你 只 用 直线 来 对 查询 点 附近 的 点 ， 而 不 是 
等 试 对 所 有 的 数据 都 进行 拟 合 ， 那 么 你 现在 就 能 拥有 一 个 非常 强大 的 
非 线性 回归 算法 。 懒 懈 也 会 有 回报 。 如 采 肯 尼 迪 需要 一 套 完 整 的 国际 
关系 理论 来 决定 该 如 何 应 对 苏联 在 古巴 部 署 的 导弹 ， 他 可 能 会 遇 到 麻 
烦 。 相 反 ， 他 从 这 个 危机 与 第 一 次 世界 大 战 的 爆发 之 间 找 到 相似 点 ， 
而 这 个 相似 点 指引 他 做 了 正确 的 决定 。 


最 近邻 算法 可 以 用 来 救命 ， 正 如 史蒂芬 :约翰 进 在 《幽灵 地 图 》 中 
描述 的 那样 。1854 年 ， 伦 救 爆 发 霍乱 ， 城 市 部 分 地 区 8 个 人 中 融 有 1 个 
人 有 死亡。 当时 的 理论 认为 ， 霍 乱 由 “不 恨 气体 "引起 ， 但 该 理论 并 没 能 
阻止 霍乱 的 草 延 ， 约 蓝 : 斯 诺 (一 位 质疑 该 理论 的 内 科 医 师 ) 则 有 更 好 
的 主意 。 他 在 伦敦 地 图 上 标 出 所 有 霍乱 病例 的 位 置 ， 然 后 划分 地 图 ， 
每 个 区 域 都 距离 公共 水 有 泵 最 近 。 有 了 ! 几乎 所 有 死者 部位 于 某 个 特定 
水 泵 的 “ 城 域 " 中 ， 也 就 是 位 于 苏 活 区 的 布 罗 德 大 街 上 。 经 推 凯 井 里 的 


水 被 污染 了 ， 斯 话说 服 当 地 人 蔡 目 使 用 该 水 条， 流行 病 吏 消 失 了 “。 这 
段 插曲 孕育 了 流行 病 学 ， 而 它 还 是 最 近邻 算法 取得 的 第 一 次 成 功 一 一 
流行 病 学 正式 出 现 还 是 在 近 一 个 世纪 之 后 。 


有 了 最 近邻 算法 ， 每 个 数据 点 束 是 自己 的 微型 分 类 器 ， 为 所 有 获 
取 的 得 询 例子 预测 级 别 。 最 近邻 算法 残 像 一 群 蚂 蚁 ， 在 这 个 队伍 中 每 
只 蚂蚁 都 做 得 很 少 ， 但 把 力量 聚集 在 一 起 ， 它 们 残 可 以 移动 高 山 。 如 
果 一 只 蚂蚁 的 负重 过 大 ， 它 可 以 和 周围 的 蚂蚁 共同 承担 。 本 着 同样 的 
精神 ， 在 k 最 近邻 算法 (k-nearest-neighbor algorithm) 中 ， 测 试 的 例子 
的 分 类 方法 是 找到 它 的 k 最 近邻 ， 然 后 让 它们 进行 投票 。 如 有 果 距 离 上 传 
照片 最 近 的 图 片 是 一 张 脸 ， 但 接 下 来 最 近 的 两 张 却 不 是 ， 第 三 张 最 近 
邻 的 照片 也 还 是 会 认为 最 狐 上 传 的 不 是 脸 。 最 近邻 算法 容易 犯 过 拟 合 
错误 : 如 采 数 据点 的 等 级 是 错误 的 ， 它 会 葛 延 到 整个 城 域 当中 。K 最 
近邻 算法 更 可 靠 ， 因 为 只 有 在 多 数 k 近 邻 受 干扰 时 才 会 出 错 。 当 然 ， 犯 
错 的 代价 瓯 是 它 的 图 像 会 更 模糊 : 边界 的 细节 因 为 投票 而 变 得 模糊 。 
K 值 变 大 时 ， 方 差 变 小 ， 但 偏差 变 大 。 


利用 多 个 K 最 近邻 而 不 仅 一 个 近邻 ， 这 不 是 事情 的 结局 。 直 观 来 
看 ， 与 测试 例子 最 接近 的 例子 应 该 更 重要 。 这 让 我 们 引出 加 权 k 最 近邻 
算法 。1994 年 ， 明 尼 苏 达州 立 大 学 和 万 省 理工 学 院 的 研究 人 员 建 立 了 
一 个 推荐 系统 ， 其 构建 基础 是 他 们 所 谓 的 “一 个 看 似 简单 的 想法 ”: 过 
去 人 们 同意 的 话 ， 将 来 他 们 也 还 会 同意 。 这 个 想法 直接 引出 协同 过 滤 
系统 ， 所 有 典型 的 电子 商务 网 站 都 有 这 些 系统 。 假 设 像 网 飞 一 样 ， 你 
建立 了 电影 评分 的 数据 库 ， 用 户 对 他 看 过 的 电影 都 会 给 出 1~5 颗 星 的 评 
分 。 你 想 确 认 用 户 肯 恩 是 否 会 喜欢 《地 心 引力 》， 因 此 你 找到 那些 以 
往 评分 与 肯 恩 的 评分 最 相关 的 用 户 。 如 有 果 他 们 对 《地 心 引 力 》 评 分 很 
高 ， 那 么 可 能 肯 恩 的 评分 也 会 很 高 ， 你 束 可 以 把 这 部 电影 推荐 给 他 。 
但 是 ， 如 果 对 于 《地 心 引力 》 他 们 有 不 同 的 看 法 ， 你 束 需 要 一 个 回 退 
上 护 ， 在 这 种 情况 下 束 要 根据 用 户 与 肯 恩 关系 的 密切 程度 来 进行 排名 。 
因此 ， 如 采 李 和 肯 恩 的 关系 比 梅 格 和 肯 轴 的 关系 密切 ， 那 么 相应 李 的 


评分 也 会 更 有 价值 。 肯 恩 的 预测 评价 吏 是 与 其 相关 的 人 的 加 权 平 均 
值 ， 每 个 人 的 权 值 就 是 他 与 肯 恩 关系 的 系数 。 


虽然 如 此 ， 但 还 是 有 一 个 有 趣 的 转弯。 假设 李 和 肯 恩 有 非常 相似 
的 品位 ， 但 李 比 肯 思 脾气 暴躁 。 当 肯 思 给 5 颗 星 时 ， 李 会 给 3 颗 星 ， 当 
肯 央 给 3 颗 星 时 ， 李 会 给 1 颗 星 ， 以 此 类 推 。 我 们 想 用 他 的 评分 来 预测 
肯 恩 的 评分 ， 但 如 有 果 我 们 直接 预测 ， 会 总 差 2 颗 星 。 我 们 要 做 的 束 是 ， 
在 知道 李 的 评分 值 的 基础 上 ， 预 测 肯 恩 的 排名 超过 或 者 低 于 平均 值 的 
量 。 而 现在 ， 既 然 当 李 总 是 比 他 的 平均 值 高 出 2 颗 星 时 ， 肯 恩 也 会 比 他 
的 平均 值 蜗 出 两 笑星 ， 我 们 的 预测 就 会 准确 。 


顺便 说 一 下 ， 你 不 需要 显 性 评分 来 进行 协同 过 小。 如 果 肯 恩 在 网 
飞 上 预订 了 一 部 电影 ， 意 味 着 他 可 能 会 喜欢 它 。 这 样 “评分 ”也 才 有 可 
能 被 预订 或 未 被 预订 ， 而 两 个 用 户 如 采 预 订 了 很 多 一 样 的 电影 ， 那 么 
他 们 品位 就 会 相似 。 即 便 只 是 暗 瞳 点 击 某 个 东西 ， 也 会 代表 你 对 它 感 
兴趣 。 最 近邻 算法 和 以 上 提 到 的 都 会 有 效 。 目 前 ， 所 有 种 类 的 算法 都 
被 用 于 为 用 户 推 荐 项 目 ， 但 加 权 k 最 近邻 算法 是 第 一 个 受到 广泛 运用 的 
算法 ， 而 且 要 打败 它 仍 然 很 困难 。 


推荐 系统 ， 亦 如 其 名 ， 是 大 业务 : 亚马逊 13 的 业务 来 目 它 为 用 户 
推荐 的 商品 ， 网 飞 3/4 的 业务 也 是 如 此 。 它 与 最 初 的 最 近邻 算法 相差 很 
大 ， 因 为 它 的 记忆 和 需求， 人 们 觉得 它 不 够 实用 。 回 到 那 时 ， 计 算 机 的 
存储 名 是 用 铁 圈 做 成 的 ， 每 个 比特 一 个 铁 圈 ， 甚 至 储存 几 千 个 例子 都 
很 费力 。 时 代 改 变 得 多 快 ! 虽然 如 此 ， 不 必 如 此 智能 ， 以 记 住所 有 你 
见 过 的 例子 ， 然 后 搜索 这 些 例子 ， 因 为 多 数 例子 可 能 并 不 相关 。 如 果 
你 回头 看 Posistan 和 Negaland 的 地 图 ， 你 可 能 会 注意 到 ， 如 果 Positiville 
消失 ， 不 会 有 任何 变化 。 附 近 城 市 的 城 域 会 扩张 至 以 往 被 Positiville 占 
用 的 土地 ， 但 因为 它们 都 是 Posistan 的 城市 ， 与 Negaland 的 边界 还 是 会 
一 样 。 真 正 重 要 的 是 横 跨 边界、 与 对 方 国 家 的 城市 相交 的 城市 ， 其 他 
所 有 的 城市 都 可 以 忽略 。 因 此 ， 使 最 近邻 算法 更 加 有 效 的 简单 方法 ， 


忠 古 删除 所 有 被 它们 的 近邻 准确 分 类 的 例子 。 这 个 技巧 加 上 其 他 技巧 
可 以 使 最 近邻 算法 得 以 应 用 于 一 些 让 人 意外 的 领域 , 例如， 实时 操控 
机 右 人 的 手臂 。 但 不 用 说 ， 写 们 仍然 不 是 诸如 高 频 交 易 之 类 事务 的 第 
一 选择 ， 因 为 在 这 些 领域 中 ， 计 算 机 会 在 一 秒 钟 内 买卖 股票 。 在 它 与 
神经 网 络 的 竞争 中 ， 因 为 神经 网 络 可 以 应 用 于 仅 舍 固定 数量 的 加 法 、 
乘法 、sigmoids 函 数 的 例子 中 ， 还 可 应 用 于 需要 为 例子 的 最 近邻 搜索 
庞大 数据 库 的 算法 中 ， 因 此 神经 网 络 肯定 会 获胜 。 


研究 人 员 最 初 之 所 以 对 最 近邻 算法 持 怀 疑 态度 ， 是 因为 它 不 确定 
能 否 找到 两 个 概念 之 间 的 真正 边界 。 但 1967 年 ， 淘 姆 : 科 韦 尔 和 彼得 . 哈 
符 证 明 ， 在 给 定 足 够 数据 的 情况 下 ， 最 近邻 算法 最 糟糕 时 易于 出 错 的 
概率 也 仪 仪 古 最 佳 可 行 分 类 器 的 两 售 。 举 个 例子 ， 如 果 因 为 数据 中 的 
干扰 因素 ， 有 至 少 1% 的 测试 例子 不 可 避免 地 被 错误 分 类 ， 那 么 最 近邻 
算法 保证 误差 率 最 多 在 2% 左 右 。 这 是 一 个 重大 的 局 示 。 直 到 那 时 ， 所 
有 已 知 的 分 类 亏 都 假定 边界 会 有 一 种 非常 明确 的 形式 ， 直 线束 是 典型 
例子 。 这 是 一 把 双 六 全 一 方面 ， 它 使 准确 性 的 证 明成 为 可 能 ， 正 如 
在 感知 右 的 例子 中 那样 ， 男 一 方面 ， 这 也 意味 着 分 类 妖 受 到 它 所 能 掌 
握 东 西 的 严格 限制 。 最 近邻 算法 古 史 上 第 一 个 能 够 利用 不 限 数 量 的 数 
据 来 掌握 任意 复杂 概念 的 算法 。 没 人 能 指望 它 能 找到 在 超 空间 中 、 由 
数 百 万 个 例子 形成 的 边界 ， 但 因为 科 韦 尔 和 哈 特 的 证 明 ， 我 们 知道 ， 
它们 可 能 不 会 错 得 太 离 谱 。 据 雷 : 库 兹 韦 尔 的 观点 ， 当 我 们 无 法 理解 计 
算 机 在 做 什么 时 ， 单 一 性 开始 产生 。 依 据 该 标准 ， 说 它 已 经 在 筹备 当 
中 也 不 稀奇 一 -1951 年 头 已 经 开始 了 ， 当 时 菲 元 斯 和 霍 奇 斯 发 明 最近 
邻 算法 ， 这 个 微小 的 算法 束 能 做 到 。 


维 数 灾难 


在 这 个 伊甸园 中 当然 也 有 一 条 蛇 ， 它 被 称 为 “ 维 数 灾难 ”。 虽然 它 
对 所 有 学 习 算 法 都 会 有 或 多 或 少 的 影响 ， 但 它 对 最 近邻 算法 的 危害 尤 
其 大 。 在 低 维度 条 件 下 (比如 二 维 或 者 三 维 ) ， 最 近邻 算法 通常 能 很 
好 地 起 到 作用 。 随 着 维 数 的 上 升 ， 事 情 束 会 很 快 陷 入 朋 江 状态 。 当 今 
算法 要 掌握 数 千 甚 至 数 百 万 个 属性 并 不 稀奇 。 对 于 电子 商务 网 站 来 
说 ， 它 要 掌握 你 的 喜好 ， 那 么 你 每 点 击 一 下 鼠标 束 算 一 种 属性 。 网 页 
上 的 每 个 词 、 图 片上 的 每 个 像素 也 是 如 此 。 即 使 只 有 数 十 或 者 数 百 个 
属性 ， 最 近邻 算法 也 有 可 能 已 陷入 困境 。 第 一 个 问题 束 古 多 数 属性 是 
不 相关 的 : 关于 肯 恩 你 可 能 知道 100 万 个 事实 ， 但 很 有 可 能 只 有 几 个 事 
实 与 他 得 肺 冶 的 风险 有 关 。 虽 然 知道 他 是 否 吸烟 对 于 做 出 该 预测 很 关 
键 ， 但 是 也 可 能 对 知道 他 是 否 喜 欢 看 《地 心 引 力 》 用 处 不 大 。 举 个 例 
子 ， 符 号 学 派 的 方法 很 擅长 处 理 非 相关 属性 ， 如 末 该 属性 不 含 任何 天 
于 等 级 的 信息 ， 那 么 它 就 不 包含 在 决策 树 或 者 规则 集 当 中 。 但 让 人 感 
到 无 望 的 是 ， 最 近邻 算法 会 受到 非 相 关 属 性 的 迷惑 ， 因 为 这 些 属性 都 
能 够 促成 例子 之 间 的 相似 性 。 有 了 足够 的 相关 属性 ， 不 相关 维度 中 的 
偶然 相似 性 会 清除 重要 维度 中 有 意义 的 相似 性 ， 而 最 近邻 算法 和 随意 
猜测 相 比 也 好 不 到 哪里 。 


让 人 感到 意外 的 十， 有 一 个 更 球 手 的 问题 ， 拥 有 更 多 的 属性 可 能 
也 会 有 害 ， 即 使 这 些 属性 是 相关 的 。 你 可 能 会 想 ， 终 归 信 息 越 多 越 
好 。 这 不 是 我 们 这 个 时 代 的 口号 吗 ? 但 随 厦 维 数 的 上 升 ， 用 于 确定 概 
念 边 界 的 训练 样本 的 数量 也 会 呈 指 数 上 升 。 如 采 有 20 个 布尔 属性 ， 整 
会 有 近 100 万 个 可 能 不 一 样 的 例子 。 如 采 有 21 个 布尔 属性 ， 融 会 有 200 
万 个 例子 ， 而 边界 也 会 有 相应 数量 的 方式 来 定义 这 些 属性 。 每 个 额外 
的 属性 都 会 把 学 习 问 题 的 困难 程度 加 倍 ， 而 这 也 只 是 有 布尔 属性 的 情 
况 。 如 果 属 性 包含 很 多 信息 ， 添 加 该 属性 种 来 的 好 处 可 能 会 多 于 损 
失 。 如 有 果 你 有 的 只 是 能 提供 很 少 信息 的 属性 ， 比 如 邮件 中 的 词语 或 者 
图 片 中 的 像素 ， 那 么 你 可 能 会 遇 到 麻烦 ， 即 使 这 些 属 性 集中 在 一 起 组 
成 的 信息 足以 预测 你 想 要 的 是 什么 。 


情况 会 变 得 更 糟糕 。 最 近邻 算法 的 基础 是 找到 相似 物体 ， 而 在 高 
维度 情况 下 ， 相 似 性 的 概念 束 会 无 效 。 超 空间 就 像 过 渡 区 域 。 在 三 维 
空间 里 的 直觉 不 再 适用 ， 人 怪异 离奇 的 事 开 始 发 生 。 想 想 一 个 橘子 : 
层 洲 湾 的 外 壳 包 庄 着 好 吃 的 果肉 。 比 如 橘子 90% 的 半径 是 果肉 ， 剩 下 
的 10% 则 是 果 壳 ， 这 意味 着 橘子 73% 的 体积 是 果肉 (0.93) 。 现 在 想象 
一 个 超级 橘子 : 90% 的 半径 还 是 果肉 ， 但 它 在 100 个 维度 的 空间 中 。 那 
么 果肉 的 体积 已 经 缩小 到 超级 橘子 体积 (0.91%9) 的 1/3000。 这 个 超级 
橘子 全 都 是 皮 ， 而 并 且 你 绝对 无 法 将 其 剥 开 。 


另外 一 个 让 人 不 安 的 例子 吏 发 生 在 我 们 的 老 朋 友 号 上 一 一 正 态 分 
布 ， 又 名 钟 形 曲线 。 正 态 分 布 认为 ， 数 据 本 质 上 束 落 在 一 个 点 上 “〈 正 
态 分 布 的 平均 值 ) ， 但 其 周围 也 会 有 模糊 的 东西 (由 标准 差 给 出 ) 。 
对 吗 ? 在 超 空 间 中 不 是 这 样 的 。 在 高 维度 正 态 分 布 中 ， 你 比较 有 可 能 
得 到 远离 而 不 是 接近 平均 值 的 样本 。 超 空间 中 的 钟 形 曲 线 看 起 来 更 像 
甜 甜 图， 而 不 像 钟 。 当 最 近邻 算法 走 进 这 个 颠倒 的 世界 时 ， 它 会 变 得 
非常 困惑 。 所 有 的 例子 看 起 来 部 一 样 ， 同 时 因为 它们 距离 彼此 太 远 ， 
无 法 做 出 有 用 的 预测 。 如 有 果 你 将 例子 统一 地 随意 分 布 在 高 维度 的 立方 
体 中 ， 大 部 分 例子 会 更 接近 立方 体 的 一 个 面 ， 而 不 是 接近 它们 的 最 近 
邻 。 在 中 世纪 的 地 图 中 ， 未 涉足 领域 会 被 标 上 “ 龙 *、“ 海 蛇 * 等 其 他 虚 
构 出 的 生物 ， 或 者 只 标 上 “此 处 有 怪物 ”的 短语 。 在 超 空 间 中 ， 龙 无 处 
不 在 ， 你 的 前 门 也 会 有 。 如果 壬 试 走 到 你 隔壁 邻居 家 ， 那 你 永远 也 到 
不 了 那里 ， 你 会 永远 迷失 在 陌生 的 陆地 上 ， 在 这 里 ， 所 有 熟悉 的 东西 
都 消失 不 见 。 


决策 网 也 无 法 幸免 于 维 数 灾难 。 举 个 例 了 于， 你 打算 学 习 的 概念 是 
一 个 球体 : 球 内 的 点 是 正 的 ， 球 外 的 点 是 负 的 。 通 过 放 在 球体 内 正 合 
适 的 最 小 立方 体 ， 决 策 树 可 以 估算 球体 的 体积 。 这 不 是 完美 的 方法 ， 
但 也 不 会 太 郑 : 只 有 立方 体 的 角 才 会 被 误 分 类 。 但 在 高 维度 空间 中 ， 
超级 立方 体 几 乎 所 有 的 体积 都 会 出 现在 超 球面 外 。 对 于 你 准确 将 其 标 


注 为 正 的 例子 ， 你 会 错误 地 将 许多 负 的 例子 分 类 为 正 ， 这 会 让 你 的 准 
确 率 骤然 下 降 


实际 上 ， 没 有 哪 种 算法 能 够 幸免 于 维 数 灾难 。 这 是 机 右 学 习 中 ， 
继 过 拟 合 之 后 ， 第 二 个 最 粮 料 的 问题 。“ 维 数 灾难 ”这 个 术语 由 理 查 德 : 
贝尔 曼 在 50 风 时 提 出 的 ， 他 古 一 位 控制 论 理论 家 。 他 观察 到 ， 控 制 算 
法 在 三 维 空间 中 可 以 起 到 很 好 的 作用 ， 但 在 高 维度 空间 中 则 变 得 效率 
极 低 。 例 如 ， 当 你 想 挥 制 机 右 人 手臂 中 的 每 个 节点 或 者 化 工厂 的 把 手 
时 ， 这 种 情况 吏 会 出 现 。 但 在 机 需 学 习 中 ， 问 题 不 仅仅 在 于 计算 成 本 
一 一 随 着 维 数 上 升 ， 变 得 越 来 越 困 难 的 是 学 习 本 映 。 


然而 ， 并 不 是 所 有 东西 部 丢失 了 。 我 们 能 做 的 第 一 件 事 束 是 摆 脱 
不 相关 维度 。 决 策 树 会 目 行 做 好 这 一 点 ， 方 法 区 是 计算 每 种 属性 的 信 
思 增 益 ， 然 后 只 使 用 最 能 提供 信息 的 属性 。 对 于 最 近邻 算法 来 说 ， 我 
们 可 以 完成 类 似 的 事情 ， 方 法 束 生 首先 丢弃 所 有 那些 信息 增 花 低 于 效 
值 的 属性 ， 然 后 只 在 简化 的 空间 中 测量 相似 性 。 这 对 于 一 些 应 用 来 说 
足够 快 、 足 够 好 ， 但 不 笠 的 是 ， 这 种 方法 会 阻碍 许多 概念 的 学 习 ， 像 
XOR 这 辑 那样 : 如 果 当 与 其 他 属性 结合 时 ， 一 个 属性 只 描述 了 有 关 类 
别 的 一 些 点 ， 而 不 古 关 于 目 己 本 身 ， 那 么 它 束 会 被 淘 汰 。 一 个 代价 更 
大 但 也 更 智能 的 选择 ， 束 是 围绕 学 习 算法 来 选择 属性 ， 并 进行 爬山 算 
法 人 研究， 该 研究 会 不 断 删 除 属性 ， 只 要 不 会 降低 最 近邻 算法 留存 数据 
的 准确 度 。 和 牛顿 也 进行 过 许多 次 的 属性 选择 ， 当 时 他 确定 要 预测 物体 
的 轨迹 ， 最 重要 的 就 是 要 知道 它 的 质量 一 一 不 是 颜色 、 和 气味、 年 龄 ， 
或 者 无 数 其 他 的 属性 。 实 际 上 ， 方 程式 最 重要 的 东西 ， 束 是 未 在 方程 
式 中 出 现 的 所 有 数量 : 一旦 我 们 知道 这 些 要 点 是 什么 ， 要 和 弄 消 楚 这 些 
要 点 如 何 相互 依赖 ， 束 变 得 更 加 容易 了 。 


要 处 理 弱 相 关 的 属性 ， 一 个 选择 束 是 掌握 属性 权 值 。 我 们 不 会 让 
所 有 维度 下 相似 性 的 重要 性 相等 ， 而 十 “缩减 ”不 那么 相关 的 属性 。 假 
设 训练 例子 是 房间 中 的 点 ， 那 么 高 度 扩 才 对 于 我 们 的 目标 惑 没 那 么 重 


要 了 。 抛 弃 这 一 点 会 将 所 有 例子 投 到 地 板 上 。 调 低 高 度 尺 寸 义 更 像 给 
屋子 加 了 一 层 更 低 的 天 人 花 板 。 当 计算 某 点 到 其 他 点 的 距离 时 ， 该 点 的 
高 度 仍 有 价值 ， 但 没有 它 的 水 平 位 置 那 么 重要 。 和 机 器 学 习 中 的 许多 
事情 一 样 ， 我 们 可 以 通过 梯度 下 降 来 掌握 属性 权 值 。 


一 间 屋 子 可 能 会 有 很 高 的 天 人 花 板 ， 但 数据 点 都 会 在 地 板 附 近 ， 整 
像 一 层 沙沙 的 灰尘 落 在 地 板 上 。 在 这 种 情况 下 ， 我 们 是 幸运 的 : 这 个 
问题 看 起 来 似乎 和 三 维 有 关 ， 其 实 它 更 接近 二 维 。 不 必 缩 减 高 度 ， 因 
为 目 然 已 经 为 我 们 缩 诚 了 。 这 个 非 一 致 性 往往 能 够 挽救 局 面 ， 通 过 这 
一 点 数据 在 ( 超 ) 空间 中 束 可 以 均匀 分 布 了 。 例 子 可 能 会 有 1000 种 属 
性 ， 但 实际 上 ， 它 们 都 “生存 ”在 维度 低 很 多 的 空间 中 。 这 使 最 近邻 算 
法 有 助 于 识别 手写 体 数字 ， 例 如 ， 每 个 像素 都 是 一 个 维度 ， 因 此 会 有 
很 多 维度 ， 但 在 所 有 可 能 的 图 片 中 只 有 一 小 部 分 是 数 子 ， 所 有 图 片 痢 
一 起 待 在 超 空间 小 小 的 舒适 角落 里 。 但 是 ， 数 据 “ 生 存 ” 的 低 维度 空间 
可 能 会 反复 无 币 。 例 如 ， 如 有 果 一 间 房 有 家 具 ， 灰 尘 吏 不 会 落 在 地 板 
上 ， 而 会 落 在 桌面 、 椅 面 、 床 章 、 古 董 典 上 。 如 采 我 们 能 卉 明日 灰尘 
履 关 地 板 的 大 致 形状 ， 那 么 我 们 需要 的 殉 是 地 板 上 每 个 点 的 坐标 。 在 
第 八 章 中 ， 我 们 会 看 到 机 器 学 习 中 会 有 整个 分 文 致力 于 〈 可 以 这 人 么 
说 ) 在 超 空 间 的 黑暗 中 摸索 ， 以 找到 地 板 的 形状 。 


空中 蛇 灾 


直到 20 世 纪 90 年 代 ， 应 用 范围 最 广 的 类 比 学 习 算 法 束 是 最 近邻 算 

法 ， 但 后 来 被 来 自 其 他 学 派 更 3 引信 注目 的 “表亲 ”村 去 光芒 。 当 时 一 种 
产 的 以 相似 性 为 基础 的 算法 横 空 出 世 了 ， 横 扫 之 前 的 所 有 算法 。 实 际 
上 ， 你 可 以 说 它 是 目 冷 战 结束 以 来 的 男 一 个 “和 平 红 利 *。 它 就 是 支持 
回 量 机 (Support vector machines，SVM) ， 是 弗 拉 基 米 尔 :万 普 尼 元 
(一 位 苏联 频率 论 研 究 者 ) 的 创意 。 万 普 尼 克 的 大 半生 都 在 莫斯科 的 


控制 科学 研究 所 度 过 ，1990 年 ， 随 着 苏联 走 回 解体 ， 他 移居 类 国 ， 在 
那里 他 加 入 传说 中 的 贝尔 实验 室 。 昌 然 在 苏联 ， 万 普 尼 克 很 多 时 候 痢 
满足 于 从 事理 论 、 纸 笔 工 作 ， 但 在 贝尔 实验 室 的 氛围 则 不 一 样 。 研 究 
人 员 正 在 寻找 实践 结果， 而 万 普 尼 克 最 终 决 定 将 其 想法 变 成 算法 。 在 
几 年 时 间 内 ， 他 和 贝尔 实验 室 的 同事 已 经 研发 出 文 持 同 量 机 。 不 久之 
后 ， 文 持 疝 量 机 就 变 得 无 所 不 在 ， 并 创下 不 同 的 准确 度 纪录 。 


表面 上 看 ， 文 持 向 量 机 看 起 来 很 像 加 权 K 最 近邻 算法 : 正 类 别 与 负 
类 别 之 间 的 边界 由 一 组 例子 、 其 权 值 加 上 相似 性 测度 来 确定 。 测 试 实 
例会 归 入 正 类 别 ， 条 件 是 从 平均 水 平 上 看 ， 它 看 起 来 更 像 正 面 例子 而 
不 是 负面 例子 。 平 均 数 会 被 加 权 ， 而 文 持 向 量 机 只 会 记 住 那些 用 于 确 
定 边 界 的 关键 例子 。 如 果 你 回头 看 Posistan 和 Negaland 的 例子 ， 一旦 我 
们 丢掉 那些 不 在 边界 上 的 城市 ， 简 下 的 就 是 这 张 地 图 ( 见 图 7-3) 。 


这 些 例 子 被 称 为 支持 向 量 ， 因 为 它们 是 “ 文 撑 ” 边 界 的 同 量 : 移动 
一 个 同 量 ， 边 界 的 一 段 束 会 消 向 其 他 不 同 的 地 方 。 你 也 许 还 会 注意 
到 ， 边 寞 束 古 一 条 锯齿 状 的 线 ， 实 例 的 确切 位 置 会 决定 突然 出 现 的 抛 
角 。 真 实 的 概念 趋 回 于 拥有 更 加 平缓 的 边界 ， 这 意味 着 最 近邻 算法 的 
估算 可 能 不 理想 。 但 有 了 文 持 问 量 机 ， 我 们 惑 可 以 掌握 平缓 的 边界 ， 
看 起 来 更 像 图 7-4。 


Positiville 


一 


Positiville 一 


图 7-4 


为 了 学 习 文 持 癌 量 机 ， 我 们 需要 选择 向 量 和 它们 的 权 值 。 相 似 性 
度量 ， 在 文 持 向 量 机 领地 被 称 为 “核心 程序 "， 通 瘦 被 归 为 先 验 性 。 万 
普 尼 克 的 一 个 重要 观点 就 有 是 ， 并 不 是 所 有 将 正面 训练 例子 从 负面 训练 
例子 分 离 出 来 的 边界 都 是 乎 等 的 。 假 设 Posistan 和 Negaland 发 生 战争 ， 
筷 们 之 间隔 着 无 人 区 ， 两 边 都 是 布雷 区 。 你 的 任务 吏 是 调查 无 人 区 ， 


从 无 人 区 的 这 头 走 到 那 头 ， 不 能 踩 到 任何 地 雷 。 笠 运 的 是 ， 你 有 一 张 
地 图 ， 告 诉 你 地 雷 都 埋 在 哪里 。 显 然 ， 你 不 会 走 旧 路 线 :， 你 会 假设 地 
雷 可 能 在 的 位 置 很 党 阔 。 这 就 古 支持 向 量 机 所 做 的 事 ， 实 例 相 当 于 地 
雷 ， 要 掌握 的 边界 相当 于 选择 的 路 线 。 边 界 距离 实例 最 近 的 地 方 就 是 
它 的 安全 边际 ， 文 持 同 量 机 选择 支持 向 量 和 权 值 ， 这 些 向 量 和 权 值 能 
够 产生 可 能 的 最 大 边际 。 例 如 ， 图 7-5 中 的 实 线 边界 比 虚 线 要 好 。 


图 7-5 


虚线 边界 能 够 较 好 地 将 正面 例 于 和 负面 例子 分 离 ， 但 很 危险 的 
征 ， 它 老 点 接触 到 A 处 和 B 处 的 地 震 。 这 些 例子 都 是 文 持 癌 量 : 删除 其 


中 的 一 个 ， 最 大 边际 边界 束 会 移 到 不 同 的 地 方 。 通 第 ， 边 界 当然 也 可 
能 是 要 曲 的 ， 这 使 得 边界 更 加 难以 想象 ， 但 我 们 可 以 将 边界 想象 成 疏 
问 无 人 区 的 蛇 ， 边 际 表示 这 条 蛇 可 能 有 多 肥 。 如 采 很 肥 的 蛇 能 够 一 直 
晓 蜂 仆 行 而 不 会 被 地 雷 炸 得 粉碎 ， 那 么 文 持 癌 量 机 区 ® 可 以 很 好 地 将 正 
面 例子 和 人 负面 例子 分 离 。 万 普 尼 克 表 明 ， 在 这 种 情况 下 ， 我 们 可 以 确 
信 ， 文 持 向 量 机 不 会 过 拟 合 。 直 观 地 说 ， 和 一 条 瘦 的 蛇 相 比 ， 肥 的 蛇 
能 够 不 触 雷 爬 行 的 方法 更 少 。 同样 ， 和 低 边 际 的 文 持 同 量 机 相 比 ， 高 
边际 的 区 不 太 可 能 因为 画 了 一 条 过 于 复杂 的 边界 而 过 拟 合 。 


事情 的 第 二 部 分 束 古 文 持 癌 量 机 如 何 找到 最 合适 的 蛇 ， 刚 好 夹 在 
正面 雷 区 和 负面 雷 区 之 间 。 乍 一 看 ， 通 过 梯度 下 降 ， 为 每 个 训练 实例 
掌握 权 值 可 能 会 成 功 。 我 们 要 做 的 ， 束 古 找 到 能 够 将 边际 最 大 化 的 权 
值 ， 而 那些 最 终结 采 为 0 权 值 的 例子 则 被 抛弃 。 不 竺 的 是 ， 这 样 做 只 会 
让 权 值 不 受 限 制 地 增长 ， 因 为 从 数学 的 角度 讲 ， 权 值 越 大 ， 边 际 越 
大 。 如 采 距 离 地 雷 只 有 1 英尺 ， 然 后 你 将 所 有 东西 的 尺寸 者 扩大 一 倍 ， 
包括 你 目 己 ， 你 现在 距离 雷 区 有 2 英尺 ， 但 这 样 并 不 会 降低 你 躁 到 地 雷 
的 可 能 性 。 相 反 ， 我 们 得 在 限制 范围 内 将 边际 最 大 化 ， 该 范围 内 ， 权 
值 智能 增长 到 某 个 固定 值 。 或 者 ， 同 样 的 效果 ， 我 们 可 以 在 限制 范围 
内 将 权 值 最 小 化 ， 该 范围 内 所 有 例子 都 会 有 一 个 给 定 的 边际 ， 该 边际 
有 可 能 是 1 一 一 确切 来 说 吓 任 意 的 。 这 就 是 通 稼 文 持 同 量 机 做 的 事情 。 


约束 优化 是 在 将 受 限 函数 最 大 化 或 者 最 小 化 时 遇 到 的 问题 。 宇 宙 
会 最 大 化 烂 ， 而 精 遵 守 能 量 守恒 定律 。 这 类 问题 在 商业 和 技术 领域 会 
经 常 厨 到 。 例 如 ， 我 们 可 能 会 想 把 工厂 生产 的 小 部 件数 量 最 大 化 ， 这 
个 部 件 的 数量 可 由 机 床 的 数量 、 小 部 件 的 规格 等 决定 。 有 了 文 持 向 量 
机 ， 约 束 优化 对 机 器 学 习 来 说 也 会 变 得 重要 。 无 约束 优化 正在 登 上 顶 
峰 ， 而 这 就 是 梯度 下 降 (或 者 ， 在 本 例子 中 为 上 升 ) 要 做 的 事情 。 约 
束 优化 就 古 当 你 集 在 公路 上 时 ， 尽 可 能 往 高 处 走 。 如 采 公 路 延伸 到 顶 
峰 ， 约 束 及 无 约束 问题 的 解决 方法 就 会 一 样 。 即 便 如 此 ， 更 多 时 候 ， 
公路 要 弯曲 曲 围 绕 着 山峰 ， 接 着 还 没 到 山顶 殉 红 回 来 了 。 你 知道 目 己 


已 经 到 达 公 路 的 最 高 点 ， 因 为 在 不 脱离 公路 的 情况 下 ， 你 已 经 无 法 开 
到 更 高 的 地 方 。 换 句 话说 ， 也 就是 到 达 顶 点 的 路 线 与 公路 成 直角 。 如 
果 公 路 和 到 达 顶 后 的 路 线形 成 斜 角 ， 那 么 沿 着 公路 开 远 些 ， 你 总 能 到 
达 更 高 点 ， 即 使 那样 做 与 直线 到 达 峰 顶 相 比 ， 并 不 会 那么 快 。 因 此 ， 
解决 约束 优化 问题 的 方法 ， 不 古 沿 着 坡 面 走 ， 而 十 走 与 约束 面 平行 的 
那 部 分 坡 面 〈 在 该 例子 中 为 公路 ) ， 然 后 当 该 部 分 为 零 时 ， 停 下 来 。 


通常 ， 我 们 得 一 次 性 处 理 许多 个 约束 条 件 (在 支持 向 量 机 的 情况 
下 ， 每 个 条 件 对 应 一 个 例子 ) 。 想 象 一 下 ， 你 想 尽 可 能 地 靠近 北极 ， 
但 你 不 想 离开 目 己 的 房间 。 每 间 房 的 四 面 墙 束 古 一 个 限制 条 件 ， 而 解 
决 办 法 束 是 要 跟着 指南 针 直 到 你 磁 到 一 个 角落 ， 这 个 角落 是 东北 部 和 
西北 部 两 面 墙 的 谍 合 点 。 我 们 说 这 两 墙 墙 是 有 效 约束 条 件 ， 因 为 它们 
咀 止 你 实现 最 佳 效 末 ， 也 束 是 北极 。 如 果 你 的 房间 有 一 墙 墙 的 外 部 直 
面 北部 ， 那 么 这 就 古 唯 一 的 有 效 约 束 条 件 ， 而 解决 方法 就 在 于 这 墙 墙 
中 间 的 一 个 感 。 如 有 果 你 是 圣诞 老人 ， 而 你 的 房间 已 经 处 在 北极 上 方 ， 
而 所 有 的 约束 条 件 都 无效， 那么 你 束 可 以 在 那儿 坐等 ， 仔 细 考 上 氏 玩 具 
的 最 优 分 配 问题 (旅行 推销 员 更 容易 将 其 与 圣诞 老人 比较 ) 。 在 支持 
回 量 机 中 ， 有 效 约束 条 件 束 是 文 持 问 量 ， 因 为 它们 的 边际 已 经 是 经 允 
许 达 到 的 最 小 值 ， 移 动 边界 会 违背 一 个 或 多 个 限制 条 件 。 所 有 其 他 的 
例子 都 不 相关 ， 而 且 它 们 的 权 值 都 是 零 。 


在 现实 中 ， 我 们 通 稼 会 让 文 持 癌 量 机 违背 一 些 限制 条 件 ， 这 束 意 
味 看 将 一 些 例子 错误 分 类 ， 或 者 利用 更 少 的 边际 ， 否 则 它们 束 会 过 拟 
合 。 如果 在 正面 区 域 中 间 的 某 个 地 方 有 干扰 作用 的 负面 例子 ， 那 么 我 
们 不 想 让 边 办 在 正面 区 域 周 围 环绕 ， 目 的 只 是 为 了 让 例子 正确 。 但 文 
持 回 量 机 会 因为 它 弄 错 的 每 个 例子 而 受到 惩 加 ， 这 样 下 会 促使 它 把 错 
翅 例 子 降 到 最 低 。 文 持 问 量 机 束 像 《沙丘 》 中 的 沙 虫 : 大 而 强 韦 ， 可 
以 在 爬 过 雷 区 时 竺 免 于 儿 次 但 不 是 很 多 次 爆炸 。 


四 处 寻找 应 用 的 同时 ， 万 普 尼 元 和 他 的 同事 很 快 俩 然 发 现 了 手写 
体 数 邓 识 别 ， 他 们 在 贝尔 实验 室 的 联结 学 派 同事 束 是 研究 这 个 方面 的 
专家 。 让 所 有 人 惊讶 的 是 ， 文 持 同 量 机 和 感知 右 一 样 ， 在 其 他 领域 也 
能 很 好 地 工作 ， 感 知 右 多 年 来 已 经 被 精心 设计 用 于 数字 识别 。 这 为 两 
者 持续 时 间 长 、 波 及 范围 广 的 竞争 葛 定 了 基础 。 文 持 癌 量 机 可 以 当 作 
感知 右 的 一 个 概括 版 ， 因 为 当 你 利用 某 个 特定 的 相似 性 度量 时 ， 得 到 
的 就 是 类 别 之 间 的 超 平面 边界 (向 量 之 间 的 点 积 ) 。 但 和 多 层 感知 器 
相 比 ， 文 持 癌 量 机 有 一 个 重要 优势 : 权 值 有 单个 最 优 条 件 而 不 是 多 个 
局 部 最 优 条 件 ， 因 此 可 靠 地 掌握 它们 变 得 简单 多 了 。 虽 然 如 此 ， 文 持 
向 量 机 的 表现 力 依旧 不 比 感知 器 差 。 文 持 向 量 有 效 地 扮演 隐藏 层 的 角 
色 ， 而 它们 的 加 权 平 均值 则 起 到 输出 层 的 作用 。 例 如 ， 一 侣 文 持 疝 量 
机 可 以 轻易 表示 XOR 函 数 ， 方 法 就 古 为 4 个 可 能 的 配置 分 配 一 个 支持 
品 量 ， 但 不 较量 一 下 ， 那 些 联结 主义 学 者 便 不 会 畦 休 。1995 年 ， 拉 里 
杰 殉 尔 (贝尔 实验 室 万 普 尼 克 所 在 部 门 的 主任 ) 和 他 赌 一 顿 丰盛 的 大 
和 餐 一 一 到 2000 年 ， 神 经 网 络 就 会 和 支持 向 量 机 一 样 好 理解 。 他 输 了 ， 
但 作为 回报 ， 万 普 尼 克 打 赌 一 一 到 2005 年 束 没 有 人 会 使 用 神经 网 络 ， 
后 来 他 也 输 了 《唯一 吃 到 免费 大 餐 的 是 燕 乐 存 ， 他 们 的 见证 人 ) 。 男 
外 ， 随 闭 深 度 学 习 的 出 现 ， 联 结 学 派 已 经 重新 占据 优势 。 只 要 你 能 掌 
握 它 们 ， 含 有 多 层 的 网 络 可 以 比 文 持 问 量 机 用 更 加 简洁 的 方式 来 表达 
许多 函数 ， 而 文 持 癌 量 机 一 直 以 来 只 有 一 层 ， 这 一 点 驶 使 两 者 大 不 相 
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支持 向 量 机 早期 较 大 的 功绩 还 在 于 文本 分 类 ， 后 来 证 明 这 是 一 项 
大 实惠 ， 因 为 网 站 那 时 候 才 人 气 渐 增 。 当 时 ， 朴 聂 贝 叶 斯 是 最 匈 进 的 
文本 分 类 器 ， 但 当 语 言 中 的 每 个 词 都 代表 一 个 维度 时 ， 甚 至 它 也 开始 
过 拟 合 了 。 它 需要 的 只 是 一 个 词 ， 这 个 词 会 偶然 出 现在 训练 数据 中 所 
有 与 体育 相关 〈 举 个 例子 ) 的 页 面 中 ， 而 不 是 出 现在 其 他 页 面 中 ， 而 
朴素 贝 叶 斯 开始 出 现 幻 觉 ， 以 为 只 要 包含 该 词 的 页 面 都 是 体育 页 面 。 
但 多 亏 了 边际 最 大 化 ， 文 持 问 量 机 即使 在 很 高 的 维度 中 也 可 以 抵抗 过 
拟 合 。 


通常 ， 文 持 疝 量 机 选择 的 支持 向 量 越 少 ， 就 能 更 好 地 进行 概括 。 
任何 不 是 文 持 问 量 的 训练 例子 可 能 会 被 正确 分 类 ， 条 件 征 它 显示 为 测 
试 实例 ， 因 为 正面 和 负面 例子 之 间 的 边界 仍 在 同样 的 地 方 。 因 此 预测 
文 持 向 量 机 的 误差 率 ， 最 多 殊 足 文 持 问 量 的 那 部 分 例子 。 随 着 维 数 的 
上 升 ， 这 部 分 也 会 上 升 ， 因 此 支持 向 量 机 无 法 辛 免 于 维 数 灾难 ， 但 它 
们 最 能 抵抗 这 个 灾难 。 


除了 实践 中 的 功绩 ， 文 持 癌 量 机 还 完全 改变 了 许多 机 器 学 习 中 的 
传统 观点 。 例 如 ， 它 揭穿 了 “模型 越 向 单 吏 越 准确 ”这 个 说 言 ， 有 时 
候 ， 这 个 观点 会 被 误 以 为 是 奥 卡 姆 剃刀 理论 。 相 反 ， 文 持 癌 量 机 可 能 
有 无 限 数量 的 参数 ， 而 且 只 要 它 有 足够 大 的 边际 ， 束 不 会 过 拟 合 。 


然而 ， 文 持 疝 量 机 唯一 最 让 人 吃惊 的 属性 就 是 ， 无 论 它 形成 多 入 
弯曲 的 边界 ， 那 些 边 界 也 总 是 直线 (或 者 一 般 为 超 平面 ) 。 这 并 不 矛 
盾 ， 因 为 直线 存在 于 不 同 的 空间 中 。 假 设 例子 停 在 (x, y) 的 平面 上 ， 
而 正面 和 负面 区 域 之 间 的 边界 是 抛物 线 y=x2。 没 有 什么 方法 能 用 直线 
来 表示 它 ， 但 如 果 我 们 添加 坐标 z， 意 味 着 现在 数据 存在 于 (x, y, Z) 
空间 ， 然 后 我 们 设 定 每 个 例子 的 z 坐 标 为 它 的 x 坐 标的 平方 ， 这 时 边界 
就 是 由 y=z 定 义 的 斜 平面 。 实 际 上 ， 当 数据 点 上 升 至 三 维 空间 时 ， 有 些 
数据 点 上 升 的 数量 正 合 适 ， 但 比 其 他 数据 点 上 升 的 要 多 ， 而 和 急 板 
(presto) 在 这 个 新 维度 中 ， 正 面 例子 和 负面 例子 可 能 会 被 一 个 平面 分 
开 。 原 来 ， 我 们 可 以 把 文 持 问 量 机 利用 核心 程序 、 文 持 同 量 、 权 值 来 
做 的 事情 ， 看 作 将 数据 映射 到 更 高 维 数 的 空间 中 ， 并 在 那个 空间 找到 
最 大 边际 超 乎 面 。 对 于 一 些 核心 程序 来 说 ， 人 衍生 空间 有 无 限 的 维 数 ， 
但 文 持 癌 量 机 完全 不 会 因此 而 受到 困扰 。 超 空间 可 能 是 过 渡 区 域 ， 但 
文 持 向 量 机 已 经 弄 明 白 如 何 操 纵 它 。 


息 上 梯子 


两 个 东西 如 果 在 一 些 方面 意见 一 致 ， 那 么 它们 就 是 相似 的 。 如 果 
它们 在 一 些 方面 意见 一 致 ， 可 能 在 其 他 方面 也 会 意见 一 致 ， 这 殉 是 类 
比 的 本 质 。 它 还 表明 了 类 比 推理 中 的 两 大 子 问 题 ， 弄 明日 两 个 事物 的 
相似 度 ， 确 定 由 它们 的 相似 度 还 能 推导 出 什么 。 到 目前 为 止 ， 我 们 已 
经 探索 了 类 比 “ 低 功 耗 ?的 一 端 ， 包 含 诸如 最 近邻 和 文 持 癌 量 机 之 类 的 
算法 ， 在 这 种 情况 下 ， 这 些 问 题 的 答案 都 非常 和 测 单 。 它 们 的 应 用 最 为 
广泛 ， 但 只 用 一 章 来 介绍 类 比 学 习 并 不 完整 ， 因 为 至 少 得 浏 贤 该 领域 
更 为 强大 的 部 分 。 


在 任何 类 比 学 习 算法 中 ， 最 重要 的 问题 整 是 如 何 度量 相似 性 。 它 
可 以 如 数据 总 之 间 的 欧 几 里 得 距离 那么 和 消 单 ， 也 可 以 和 含有 多 水 平子 
程序 的 一 整 均 程序 那么 复 杀 ， 而 且 这 些 子 程序 的 最 终 产 出 是 相似 度 
值 。 不 管 怎 样 ， 相 似 度 函 数控 制 的 是 学 习 算 法 如 何 从 已 知 例子 归纳 出 
新 的 例子 。 我 们 将 目 己 对 问题 域 所 了 解 的 东西 插入 学 习 算 法 中 ， 这 丈 
变 成 类 推 学 派对 于 休 庶 问题 的 回答 。 我 们 可 以 将 类 比 学 习 应 用 到 所 有 
种 类 的 物体 中 ， 而 不 仅仅 是 属 性 回 量 ， 只 要 我 们 有 度量 它们 之 间 相 似 
度 的 方法 。 例 如 ， 我 们 可 以 通过 两 个 分 子 之 间 包 含 相同 子 结构 的 数 
量 ， 来 测量 两 个 分 子 的 相似 度 。 甲 尝 和 甲醇 相似 ， 因 为 它们 都 有 三 个 
碳 氢 键 ， 而 不 同 点 仅 在 于 一 个 所 原子 代替 了 一 个 羟基 〈 见 图 7-6) 。 
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然而 ， 这 并 不 意味 着 它们 之 间 的 化 学 行为 是 相似 的 。 甲 烷 是 气 
体 ， 而 甲醇 是 酒精 。 类 比 推理 的 第 二 部 分 ， 就 是 弄 明 白 在 已 经 发 现 的 
相似 点 的 基础 上 ， 如 何 推导 出 新 的 东西 。 这 可 以 很 简单 ， 也 可 以 很 复 
杂 “。 在 最 近邻 算法 或 者 文 持 同 量 机 中 ， 这 点 包括 在 最 近邻 算法 或 者 文 
持 向 量 类 别 的 基础 上 ， 预 测 新 东西 的 类 别 。 但 在 案例 推理 (类 比 学 习 
的 另外 一 种 类 型 ) 中 ， 输 出 的 可 能 是 由 检索 对 象 组 成 部 分 形成 的 复杂 
结构 。 假 设 你 的 惠普 打印 机 吐出 没 用 的 东西 ， 你 会 打 电 话 给 求助 台 。 
他 们 之 前 很 有 可 能 已 经 遇 到 过 很 多 次 你 这 样 的 问题 ， 所 以 好 办 法 就 是 
找到 那些 记录 ， 然 后 从 这 些 记 有 录 中 找到 可 能 解决 你 的 问题 的 方法 。 这 
不 只 是 找到 与 你 的 问题 有 许多 相似 之 处 的 投诉 那么 简单 : 例如， 和 你 
的 打印 机 一 起 使 用 的 是 Windows 系 统 ， 还 是 Mac OS X? 这 可 能 会 引起 
系统 的 不 同 设置 ， 打 印 机 也 会 变 得 相关 。 一 旦 你 找到 最 相关 的 例子 ， 
解决 你 的 问题 所 需 步 又 的 顺序 ， 可 能 是 不 同 案例 中 不 同步 又 的 组 合 ， 
可 能 还 会 针对 你 的 问题 进一步 微调 。 


求助 台 是 当今 案例 推理 最 受 欢 迎 的 应 用 。 多 数 求助 台 仍 采用 人 力 
中 介 ， 但 正 畸 诊疗 软件 IPsoft 的 虚拟 求助 台 员 工 伊 丽 莎 则 与 顾客 直接 对 
话 。 伊 丽水 配 有 交互 式 视 频 人 物 角 色 ， 迄 今 已 经 为 2000 多 万 的 顾客 解 
决 问题 ， 这 些 问 题 大 部 分 来 目 一 流 的 美国 公司 。“ 来 目 机 器 人 王国 
(Robotistan) 的 问候 ， 外 包 最 实惠 的 新 选择 ?是 近来 外 包 博 客 对 它 的 
评价 。 而 且 ， 正 如 外 包 在 不 断 疏 技 能 这 以 梯子 ， 类 比 学 习 也 是 如 此 。 
第 一 个 以 判例 为 基础 、 为 指定 判决 辩论 的 机 严 人 律师 已 经 诞生 。 这 样 
的 系统 能 够 准确 预测 超过 90% 经 其 审核 的 商业 秘密 案件 。 也 许 在 未 来 
的 网 络 法 院 中 ， 亚 马 进 云 服务 上 的 某 处 ， 在 开 星 期 间 ， 机 器 人 律师 会 
推翻 机 械 战 警 给 你 的 无 人 区 驶 汽车 开 出 的 如 单 ， 当 你 走 到 沙滩 上 时 ， 
羔 布 尼 次 将 所 有 辩论 简化 为 计算 的 梦想 最 终 会 实现 。 


可 以 说 ， 站 在 技能 这 染 梯子 更 高 处 的 是 音乐 创作 。 大 卫 : 科 普 是 加 
州 大 学 鞋 克 和 鲁 斯 分 校 的 名 誉 教授 ， 他 设计 出 一 种 算法 ， 能 够 通过 选择 
并 重组 车 名 作曲 家 作品 中 的 一 些 片 段 ， 创 造 出 市 有 这 些 作曲 家 风格 的 


新 的 音乐 。 我 在 儿 年 前 参加 过 的 一 个 会 议 上 ， 他 演奏 了 “莫扎特 ”的 三 
个 片段 : 一 段 来 自 真正 的 莫扎特 ， 一 段 出 目 人 类 作曲 家 模仿 的 莫 扎 
特 ， 一 段 来 和 目 他 上 自己 的 系统 。 然 后 他 让 听众 为 真正 的 丰 扎 特 投 票 。 沃 
尔 夫 内 胜出 了 ， 但 计算 机 打败 了 人 类 模仿 者 。 这 是 一 场 人 工 智 能 会 
议 ， 听 众 们 感到 非常 喜悦 。 在 其 他 项 目 中 则 没有 那么 开心 了 ， 一 位 听 
众 丑 怒 地 控诉 科普 ， 说 他 毁 抒 了 他 的 音乐 。 如 果 科 普 是 对 的 ， 创 造 性 

(最 深 不 可 测 的 东西 ) 都 可 以 归结 为 类 比 和 重组 。 你 可 以 通过 谷歌 搜 
索 “david cope mp3” 来 目 行 判断 。 


然而 ， 类 比 学 者 最 棒 的 技巧 在 于 跨越 问题 域 来 进行 学 习 。 人 类 一 
直 在 做 这 件 事 情 ， 比 如 一 位 高 管 可 以 从 一 家 媒体 公司 跳槽 到 另 一 家 请 
费 品 公 司 ， 而 不 用 从 零 开 始 ， 因 为 许多 相同 的 管理 技能 仍然 适用 。 华 
尔 街 雇用 很 多 物理 学 家 ， 因 为 物理 和 金融 问题 虽然 表面 上 看 区 别 很 
大 ， 却 往往 包含 相似 的 数学 结构 。 然 而 ， 假 如 我 们 对 目前 为 止 见 过 的 
学 习 算 法 进行 训练 ， 让 它们 预测 布朗 运动 ， 然 后 对 股市 进行 预测 ， 那 
么 这 些 算法 将 无 法 达到 预期 效果 。 股 票 价格 和 巧 浮 在 渡 体 中 的 粒子 的 
速度 只 十 不 同 的 变量 ， 所 以 学 习 算 法 甚至 不 知道 从 何 开始 。 但 利用 构 
造 映 射 ， 类 比 学 者 可 以 完成 这 件 事 ， 这 有 是 戴 德 瑞 ' 根 特 纳 (西北 大 学 的 
一 位 心理 学 家 ) 发 明 出 的 算法 。 结 构 了 映射 采用 两 种 描述 方法 ， 发 现 了 
它们 某 些 部 分 和 关系 的 一 致 对 应 关系 ， 然 后 基于 这 种 对 应 关系 ， 进 一 
步 将 一 个 结构 中 的 属性 转移 到 另 一 个 结构 中 。 例 如 ， 如 有 果 是 太阳 系 和 
原子 的 结构 ， 我 们 可 以 将 行星 映射 为 电子 ， 将 太阳 映射 为 原子 核 ， 并 
和 玻 尔 一 样 得 出 结论 ， 认 为 电子 围绕 原子 核 旋转 。 当然 ， 真 理会 更 加 
微妙 ， 而 往往 我 们 做 出 类 比 之 后 ， 又 得 重新 定义 它们 。 但 能 像 这 样 从 
单个 例子 中 学 习 ， 当 然 是 通用 学 习 算 法 的 一 个 关键 属性 。 当 我 们 与 一 
种 新 的 瘤 症 做 斗争 时 ， 这 样 的 事 一 直 在 发 生 ， 因 为 癌症 会 不 断 变 异 ， 
我 们 为 之 前 的 算法 掌握 的 模型 将 不 再 适用 。 我 们 也 没有 时 间 从 大 量 病 
人 中 收集 天 于 新 型 癌症 的 数据 ， 也 许 只 有 一 个 病人 ， 而 他 也 需要 救 
冶 。 那 么 我 们 最 大 的 希望 就 是 ， 将 新 型 癌症 与 已 知 癌 症 进行 对 比 ， 然 


后 努力 找到 男 外 一 种 冶 症 ， 它 与 此 种 瘤 症 的 行为 足够 相似 ， 那 么 一 些 
相同 的 疗法 就 会 起 作用 。 


有 类 比 无 法 做 到 的 事 吗 ? 道格拉斯 ' 霍 夫 斯 泰 特 认为 没有 ， 他 是 一 
位 认 知 科学 家 ， 还 是 《 哥 德 尔 、 艾 售 尔 、 书 赫 : 集 异 壁 之 大 成 》 的 作 
者 。 霍 夫 斯 泰 特 看 起 来 有 点 像 格 林 柯 的 双胞胎 兄弟 ， 可 能 是 世界 上 最 
著名 的 类 比 学 着 了 。 在 《表面 与 本 质 : 类 比 作 为 思维 的 燃料 和 火焰 》 
一 书 中 ， 霍 夫 斯 泰 竺 和 他 的 合作 者 伊 受 纽 尔 ' 桑 德尔 激烈 地 争论 ， 认 为 
所 有 智能 行为 都 可 以 归结 为 类 比 。 我 们 学 习 或 者 发 现 的 每 样 东 西 ， 从 
日 第 词语 如 “妈妈 ”和 “ 玩 机 ”的 售 义 ， 到 诸如 阿尔 伯 特 : 爱 因 斯 坦 、 埃 瓦 
里 斯 特 ' 伽 多 瓦 这 些 天 才 尺 人 的 洞察 力 ， 这 些 都 是 类 比 应 用 于 实践 中 的 
结果 。 当 小 带 姆 看 到 妇女 像 他 妈妈 照顾 他 一 样 照顾 其 他 孩子 时 ， 它 概 
括 了 “妈妈 ”的 概念 来 指 其 他 人 的 妈妈 ， 而 不 只 他 的 妈妈 。 这 反 过 来 义 
是 一 个 跳板 ， 用 来 理解 诸如 “ 母 舰 ? 和 “大 目 然 ” 等 东西 。 爱 因 斯 坦 的 “最 
快乐 思想 ”( 该 思想 还 衍生 了 广义 相对 论 ， ， 束 是 重力 与 加 速度 之 间 的 
类 比如 果 你 是 一 侣 升降 机 ， 你 无 法 判断 你 的 重量 是 因为 这 个 还 是 那 
个 而 产生 ， 因 为 它们 的 效果 十 一 样 的 。 我 们 在 类 比 的 广阔 海洋 里 邀 
游 ， 我 们 目 己 会 操纵 ， 但 无 意 间 也 会 被 操纵 。 书 中 的 每 页 都 会 包含 类 
比 《比如 本 节 的 标题 ， 或 者 前 一 万 的 标题 ) 。《 哥 德尔 、 艾 舍 尔 、 巴 
荞 》 是 哥 德 尔 定理 、 艾 舍 尔 忆 术 、 巴 医 音 乐 的 一 个 延伸 类 比 。 如 果 终 
极 算法 不 是 类 比 ， 那 么 它 肯 定 束 古 和 类 比 相似 的 东西 。 


起 床 啦 


认 知 科学 见证 了 符号 学 派 与 类 推 学 派 之 间 很 长 一 段 时 间 的 争论 。 
符号 学 派 指向 他 们 能 够 模仿 但 类 推 学 派 无 法 模仿 的 东西 ， 接 奢 类 推 学 
派 弄 明日 如 何 做 到 这 一 点 ， 然 后 想 出 他 们 能 够 模仿 但 符号 学 派 无 法 模 
仿 的 东西 ， 这 个 循环 一 直 重 复 下 去 。 基 于 实例 的 学 习 一 一 有 时 人 们 这 


样 称呼 它 ， 应 该 更 有 利于 模仿 我 们 如 何 记 住 生活 中 的 特定 片段 ;规则 
征 包 含 抽象 概念 《如 "工作 关爱 ”) 推理 的 假定 选择 。 但 我 在 读 研究 生 
时 ， 觉 得 这 两 者 真 的 只 是 连续 区 间 中 的 点 ， 而 我 们 应 该 能 够 掌握 它 的 
所 有 方面 。 实 际 上 ， 规 则 殊 是 概括 的 实例 ， 这 种 情况 下 我 们 已 经 “起 
记 ” 一 些 属 性 ， 因 为 它们 并 不 重要 。 相 反 ， 实 例 则 古 非 第 特殊 的 规则 ， 
每 种 属性 都 会 有 一 个 条 件 。 在 我 们 的 一 生 中 ， 相 似 的 片段 会 渐渐 被 抽 
象 成 基于 规则 的 结构 ， 比 如 “在 和 餐 稼 吃饭 ”。 你 知道 去 餐馆 会 涉及 从 且 
单 里 点 荣 和 给 小 费 ， 而 每 次 你 出 去 吃饭 的 时 候 ， 都 会 遵守 这 些 “ 行 为 准 
则 ”， 但 你 可 能 不 记得 目 己 意识 到 这 些 准则 时 的 第 一 家 和 餐厅。 


在 博士 论文 中 ， 我 设计 了 一 种 算法 ， 以 这 种 方式 来 将 基于 实例 的 
学 习 和 基于 规则 的 学 习 结 合 起 来 。 一 条 规则 不 会 只 和 满足 它 所 有 先决 
条 件 的 实体 匹配 ， 与 任何 其 他 规则 比 ， 它 会 与 其 更 加 相似 的 实体 匹 
配 。 在 这 个 意义 上 讲 ， 它 会 更 接近 于 满足 它 的 条 件 。 例 如 ， 胆 固 醉 浓 
度 为 220 毫 克 / 分 升 的 人 ， 会 比 深度 为 200 宫 克 / 分 升 的 人 更 加 符合 以 下 规 
则 : 如果 胆固醇 浓度 超过 240 之 克 / 分 升 ， 你 会 有 心脏 病 发 作 的 风险 。 
RISE 走 我 称呼 该 算法 的 名 字 ， 通 过 以 每 个 训练 实例 作为 开始 来 学 习 ， 
然后 渐渐 概括 每 个 例子 ， 以 吸收 最 近 的 例子 。 最 终 的 结果 通常 是 通则 
的 结合 ， 这 些 通则 会 在 它们 之 间 和 多 数 例子 匹配 ， 越 来 越 多 的 特殊 规 
则 用 来 将 例外 规则 与 那些 规则 匹配 ， 直 到 到 达 特 定 记 忆 的 “长 尾 " 上 。 
RISE 比 当时 最 好 的 规则 和 实例 学 习 算 法 预测 得 还 要 准确 ， 而 我 的 实验 
也 表明 ， 准 确 地 说 ， 这 是 因为 它 结合 了 两 者 的 最 佳 特征 。 规 则 可 以 类 
推 地 进行 匹配 ， 所 以 它们 不 会 再 那么 脆弱 。 实 例 可 以 选择 空间 中 不 同 
区 域 的 不 同 特点 ， 然 后 比 最 近邻 算法 更 能 与 维 数 灾难 相 抗衡 ， 而 最 近 
邻 算法 只 能 到 处 选择 相同 的 特征 。 


RISE 是 通 往 终 极 算 法 的 一 个 步骤 ， 因 为 它 将 符号 与 类 比 学 习 结合 
起 来 了 。 然 而 这 只 和 是 小 小 的 一 步 ， 因 为 它 不 具备 这 两 个 范式 的 全 部 能 
力 ， 仍 缺少 其 他 三 个 范式 的 能 力 。RISE 的 规则 无 法 以 不 同 的 方式 连接 
起 来 ， 每 个 规则 只 能 直接 从 其 属性 中 预测 例子 的 类 别 。 另 外 ， 这 些 规 


则 无 法 一 次 讨论 一 个 以 上 的 实体 ;例如 ，RISE 无 法 表达 这 样 的 规则 : 
如 条 A 得 了 感冒 ， 而 B 与 A 有 接触 ， 那 么 B 也 可 能 会 得 感冒 。 在 类 比 这 
边 ，RISE 仅 仅 概括 了 人 简单 的 最 近邻 算法 ， 它 无 法 利用 结构 映射 或 者 肝 
个 这 样 的 策略 来 进行 跨 域 学 习 。 在 完成 博士 论文 时 ， 我 找 不 到 能 够 为 
-种 算法 市 来 所 有 5 个 范式 能 力 的 方法 ， 然 后 我 把 这 个 问题 丢 在 一 边 一 
段 时 间 。 但 当 我 把 机 右 学 习 应 用 到 诸如 口碑 营销 、 数 据 集成 、 事 例 编 
程 、 网 站 个 性 化 等 问题 中 时 ， 我 不 断 发 现 ， 每 个 这 样 的 范式 只 提供 了 
一 部 分 解决 办 法 。 我 相信 应 该 有 更 好 的 方法 。 


至 此 ， 我 们 已 完成 了 对 5 个 学 派 的 介绍 ， 同 时 集中 了 他 们 的 观点 、 
议定 它们 的 界限 、 探 索 了 这 些 碎片 如 何 拼 送 在 一 起 。 我 们 现在 知道 的 
东西 比 一 开始 多 得 多 ， 但 还 有 一 些 东西 没有 找到 。 在 这 个 谜 题 的 中 心 
有 一 个 很 大 的 漏洞 ， 使 人 难以 看 到 其 模式 。 问 题 在 于 ， 目 前 为 止 ， 我 
们 见 过 的 所 有 学 习 算 法 ， 需 要 一 位 老师 来 告诉 它们 正确 答案 。 它 们 不 
会 从 健康 细胞 中 区 分 出 癌 细 胞 ， 除 非 有 人 将 这 些 细胞 标记 为 “ 瘤 细 
胞 ?或 者 “健康 细胞 ”。 人 类 会 无 师 目 通 ， 从 出 生 那 天 开始 ， 束 已 经 这 人 么 
做 了 。 正 如 《指环 王 》 中 站 在 魔 多 大 | ] 的 弗 罗 多 那样 ， 如 采 无 法 在 这 
个 障碍 附近 找到 出 路 ， 那 么 我 们 的 长 途 旅 行将 上台 无 意义 。 有 一 条 路 可 
以 穿越 壁垒 和 层 导 守卫， 胜利 越 来 越 近 。 跟 我 来 .…… 


Sr 
无 师 自 通 


如 果 你 是 家 长 ， 在 你 孩子 长 到 3 多 这 段 时 间 ， 关 于 学 习 的 整个 奥秘 
会 在 你 眼前 揭 开 。 新 生 儿 无 法 说 话 、 走 路 、 识 别 物 体 ， 甚 至 不 知道 ， 
当 他 看 不 到 某 个 东西 时 ， 它 仍然 存在 。 但 一 个 月 又 一 个 月 过 去 ， 大 步 
小 步 癌 前 走 ， 经 过 不 断 措 索 ， 终 于 取得 概念 理解 上 的 大 进步 ， 孩 子 终 
于 理解 世界 如 何 运转 、 人 们 如 何 行事 ， 以 及 如 何 进 行 沟通 。 孩 子 过 了 3 
岁 生 日 ， 所 有 这 些 学 习 行 为 束 会 聚合 成 稳定 的 状态 ， 即 一 种 贯 罕 我 们 
一 生 的 意识 流 。 较 大 的 孩子 和 成 年 人 可 以 进行 时 空 旅行 ， 也 整 是 记 住 
过 去 的 事 , 但 也 只 能 回忆 到 3 罗 的 事 。 如 采 我 们 能 重新 回忆 边 儿 和 踏 路 
学 步 时 期 的 目 己 ， 然 后 从 新 生 儿 的 角度 看 待 这 个 世界 ， 那 么 许多 关于 
学 习 的 疑问 ， 甚 至 关于 存在 本 映 ， 都 会 突然 变 得 清晰 明天 。 但 实际 
上 ， 守 宙 中 最 大 的 奥秘 并 不 在 于 它 如 何 开始 和 火 亡 ， 或 者 又 是 由 怎样 
无 穷 细 的 线 编织 而 成 ， 而 在 于 幼小 孩子 的 大 脑 里 正在 发 生 什么 :一 磅 
的 胶 状 物 如 何 变 成 意识 的 所 在 处 。 


对 于 儿 和 董 学 习 的 科学 人 研究 尚 不 成 熟 ， 几 十 年 前 才 正 式 开 始 ， 却 已 
经 研究 得 很 深入 。 坚 儿 无 法 填写 问卷 或 者 遵守 实验 规则 ， 但 我 们 可 以 
推导 出 天 于 他 们 大 脑 活 动 的 、 让 人 惊讶 的 数量 ， 方 法 就 是 在 实验 过 程 
中 ， 对 他 们 的 反应 进行 录制 并 研究。 连贯 的 图 片 束 出 现 了 : 婴儿 的 大 


脑 不 仅 能 揭 开 一 项 预 设 的 基因 程序 ， 或 者 是 用 于 记录 感 测 数据 中 相互 
关系 的 生物 狠 置 ， 还 可 以 积极 整合 他 们 目 喘 的 实际 情况 ， 这 种 情况 会 
随时 间 发 生 彻 底 改 变 。 


渐渐 地 ， 与 我 们 最 为 相关 的 认 知 科 学 家 以 算法 的 形式 来 表达 关于 
儿童 学 习 的 理论 。 许 多 机 器 学 习 人 研究 人 员 由 此 得 出 灵感 :我们 需要 的 
一 切 都 存在 于 孩子 的 大 脑 中 ， 如 采 能 用 编码 的 形式 来 获取 其 精华 束 好 
了 “。 一 些 人 研究 人 员 甚 至 认为 ， 创 造 智能 机 妖 的 方法 ， 就 是 要 造 出 一 个 
机 需 婴 儿 ， 让 和 它 像 人 类 竖 儿 那样 去 体验 世界 ， 全 究 人 员 束 是 它 的 父母 
(甚至 可 能 还 会 有 来 自 众 包 的 协助 ， 赋 予 “ 地 球 村 ”这 个 术语 以 全 新 的 
含义 ) 。 小 罗 比 ， 我 们 就 这 么 叫 它 吧 (为 了 向 《禁忌 星球 》 中 胖乎乎 
且 高 大 的 机 器 人 致敬 ) ， 是 我 们 造 出 的 唯一 的 机 器 人 人 婴儿。 一旦 它 学 
会 3 罗 小 骇 都 知道 的 事情 ， 那 么 人 工 闹 能 的 难题 束 得 到 解决 了 。 我 们 可 
以 把 它 脑 子 里 的 内 容 复 制 到 其 他 机 器 人 中 ， 想 复制 几 个 都 可 以 ， 这 样 
最 困难 的 工作 束 完 成 了 。 


当然 ， 问 题 在 于 罗 比 出 生 时 ， 脑 子 里 该 运行 哪 种 算法 。 受 到 儿童 
心理 学 影响 的 研究 人 员 会 看 不 惯 神经 网 络 学 ， 因 为 一 个 神经 元 的 微型 
运作 与 孩子 最 基本 行为 的 复杂 度 也 相差 十 万 八 千里 ， 这 些 行 为 包括 伸 
手 去 拿 东 西 、 抓 住 东西 ， 然 后 卓 大 眼睛 好 奇 地 观察 它 。 我 们 需 以 更 抽 
象 的 水 平 来 模拟 儿童 的 学 习 ， 以 免 只 见 树 木 、 不 见 和 森林 。 首 匈 ， 虽 然 
孩子 理所当然 从 父母 那里 获得 了 许多 帮助 ， 但 很 多 时 候 他 们 有 是 在 没 人 
监督 的 情况 下 进行 目 学 ， 这 才 古 最 不 可 思议 的 地 方 。 目 前 为 止 ， 我们 
见 过 的 算法 还 无 法 做 到 这 一 点 ， 但 我 们 会 发 现 有 几 种 算法 可 以 让 我 们 
看 到 离 终 极 算 法 更 进一步 了 。 


物 以 类 聚 ， 人 以 群 分 


我 们 轻 轻 按 下 “打开 ”按钮 ， 罗 比 的 视频 眼 第 一 次 睁 开 了 ,但 马上 
它 束 淹没 在 威 廉 :詹姆斯 令 人 记忆 深刻 的 所 谓 世 界 的 “ 洒 乱 无 草 ” 中 。 随 
着 新 图 片 以 每 秒 几 十 张 的 速度 涌 入 视线 ， 它 必须 做 的 第 一 件 事 束 是 学 
会 将 这 些 图 片 组 织 成 更 大 的 图 片 块 。 真 实 的 世界 由 持续 存在 一 段 时 间 
的 物体 组 成 ， 而 不 是 由 从 这 一 刻 到 下 一 刻 随意 变换 的 像素 组 成 。 妈妈 
走 开 时 ， 她 还 是 她 ， 不 会 被 更 小 的 妈妈 代 兰 。 把 一 个 副 子 放 在 介 上 ， 
桌面 不 会 出 现 日 色 的 洞 。 如 果 一 只 泰 迪 能 从 屏幕 里 经 过 ， 然 后 再 出 现 
时 变 成 一 架 飞 机 ， 那 么 幼小 的 婴儿 不 会 对 此 感到 惊讶 ;但 一 妇 小 孩 却 
会 。 不 知 为 什么 ， 他 和 弄 明 白 了 泰 迪 能 和 飞机 不 一 样 ， 而 且 无 法 目 行 转 
化 。 之 后 不 久 ， 他 会 弄 明 日 有 些 物 体 和 其 他 物体 更 像 ， 然 后 开始 进行 
分 类 。 假 是 有 一 大 堆 马 形 玩 偶 和 铅笔 可 以 玩 ，9 个 月 大 的 孩子 不 会 将 其 
分 类 成 马 形 玩 储 和 铅笔 两 个 范畴 ， 但 一 个 18 个 月 的 孩子 却 会 。 


将 世界 组 织 成 客体 和 类 别 ， 对 于 成 年 人 来 说 ， 这 征 第 二 天 性 ; 对 
于 竖 儿 来 说 却 不 是 ， 对 于 机 严 人 有 罗 比 来 说 ， 更 没有 可 能 。 我 们 可 以 以 
多 层 感 知 侨 的 形式 赋予 它 视觉 皮质 ， 然 后 为 它 展示 分 类 好 的 世界 里 所 
有 的 客体 和 类 别 的 例子 一 一 妈妈 走 近 了 ， 妈 妈 走 远 了 ， 但 我 们 绝 不 可 
能 做 到 。 我 们 需要 一 种 能 够 目 发 将 所 有 相似 物体 或 者 同一 物体 的 不 同 
图 片 集中 起 来 的 算法 。 这 就 古 罕 类 问题 ， 这 在 机 器 学 习 当 中 也 是 人 们 
研究 最 多 的 主题 之 一 。 


一 个 集群 相当 于 一 组 相似 的 实体 ， 或 者 以 最 低 限 度 来 说 ， 一 组 相 
似 的 实体 之 间 的 相似 度 比 和 其 他 集群 中 的 组 成 部 分 的 相似 度 要 大 。 对 
事物 进行 聚 类 ， 这 征 人 类 的 天 性 ， 也 是 获取 知识 的 第 一 步 。 当 我 们 仰 
望 夜 空 时 ， 会 禁不住 去 看 星座 ， 然 后 根据 形状 来 为 其 命名 。 注 意 到 某 
些 元 到 组 有 很 相似 的 化 学 属性 ， 这 是 发 现 元 素 周 期 表 的 第 一 步 ， 那 些 
相似 元 素 现 在 就 古 元 素 周 期 表 中 的 一 列 。 我 们 察觉 到 的 一 切 束 是 一 个 
集群 ， 从 朋友 的 脸 到 说 话 声 。 没 有 这 些 ， 我 们 束 会 不 知 所 措 : 在 学 会 
识别 组 成 语言 的 独特 声音 之 前 ， 儿 童 无 法 学 习 语 言 。 这 需要 他 们 在 一 
图 时 学 习 ， 而 且 如 采 没 有 单词 指 代 的 真实 事物 群集 ， 他 们 学 习 的 所 有 


单词 就 会 没有 意思 。 面 对 大 数据 (大 量 的 事物 ) ， 我 们 首先 采用 的 办 
法 就 是 把 大 数据 分 成 若干 更 好 处 理 的 集群 。 比 如 ， 整 个 市 场 过 于 粗 
化 ， 单 个 消费 者 义 过 于 细微 ， 因 此 市 场 营销 人 员 会 将 市 场 分 成 若干 部 
分 ， 这 些 部 分 就 成 为 集群 。 甚 至 物体 本 喘 也 是 观察 的 的 层 集 群 ， 从 由 
不 同 角 度 照射 到 妈妈 脸 上 的 光线 ， 到 宝宝 听 到 的 关于 “妈妈 ”一 词 的 不 
同 声 波 。 没 有 物体 ， 我 们 束 无 法 进行 思考 ， 也 许 这 也 是 量子 力学 如 此 
非 直 观 的 原因 :我们 想 把 亚 原子 世界 形象 化 ， 看 作 粒 子 碰撞 或 者 波形 
干扰 的 世界 ， 但 这 样 也 并 不 真实 。 


我 们 可 以 通过 集群 的 典型 元 素来 表示 该 集群 : 你 用 心灵 之 眼看 到 
母亲 的 形象 ， 或 者 典型 的 猫 、 跑 车 、 郊 区 住宅 和 热带 海滩 。 依 据 市 场 
营销 知识 ， 伊 利 诺 伊 州 的 皮 奥 瑞 亚 钙 典 型 的 美国 小 镇 。 鲍 动 : 伯 因 斯 是 
康涅狄格 州 温 人 德 姆 小 镇 的 一 名 房屋 维修 主管 ， 今 年 53 岁 ， 是 美国 最 普 
通 的 市 民 一 一 如 采 你 相信 凯 文 ' 奥 基 夫 《普通 美国 人 》 一 书 讲 的 是 对 
的 ， 那 么 至 少 是 这 样 的 。 任 何 由 数字 属性 描述 的 东西 ， 比 如 人们 的 续 
高 、 体 重 、 围 度 、 鞋 码 、 头 发 长 度 等 ， 使 得 计算 平均 数 变 得 简单 : 他 
的 吴 高 项 是 所 有 集群 成 员 的 平均 身高 ， 他 的 体重 吏 是 所 有 体重 的 平均 
数 .…… 对 于 分 类 属性 来 说 ， 比 如 性 别 、 头 发 颜色 、 邮 政 编码 或 者 最 辟 
爱 的 运动 ,“ 平 均 ? 束 是 出 现 频 率 最 高 的 值 。 这 组 属性 描述 的 普通 成 员 
可 能 不 是 真实 存在 的 人 ， 但 不 管 怎 样 ， 它 是 十 分 有 用 的 参考 : 如 采 你 
在 进行 头脑 风暴， 考虑 如 何 营 销 新 产品 ， 把 皮 奥 瑞 亚 当 作 产 品 发 布 的 
地 点 ， 或 者 把 鲍 动 : 伯 恩 斯 当 作 目 标 客 户 ， 这 要 比 堵 虑 “市 场 ” 或 者 “ 消 
费 者 ”之 类 的 抽象 实体 要 好 。 


尽管 这 样 的 平均 值 很 有 用 ， 但 我 们 可 以 做 得 更 好 。 的 确 ， 大 数据 
和 机 器 学 习 的 全 部 要 点 在 于 避免 粗糙 的 思考 。 我 们 的 集群 可 能 是 许多 
人 组 成 的 专业 性 很 强 的 组 ， 甚 至 古 同 一 个 人 的 不 同方 面 :爱丽 丝 买 工 
作用 的 书 、 休 闲 相关 的 书 ， 或 者 作为 圣诞 礼物 的 书 ， 爱丽 丝 心情 好 ， 
或 爱丽 丝 心情 忧郁 。 亚 马 进 想 把 爱丽 丝 买 给 目 己 的 书 和 送 给 男 朋友 的 
书 区 分 开 来 ， 因 为 这 样 可 以 使 它 在 恰当 的 时 间 做 恰当 的 推荐 。 不 幸 的 


是 ， 采 购 不 会 贴 着 < 自己 的 礼物 "或 者 鲍 勃 的 礼物 "标签 ， 而 亚马逊 要 
懂得 如 何 将 这 些 进 行 分 类 。 


假设 罗 比 的 世界 中 的 实体 分 成 五 个 集群 (人 类 、 家 具 、 玩 具 、 食 
物 和 动物 ) ， 但 我 们 不 知道 这 些 东西 分 别 属于 哪个 集群 。 当 我 们 启动 
罗 比 时 ， 这 束 是 它 面临 的 问题 类 型 。 将 实体 分 类 成 集群 的 一 个 简单 方 
法 ， 束 是 随机 挑选 5 个 物体 作为 集群 典范 ， 再 利用 每 个 典范 来 对 比 每 个 
实体 ， 然 后 将 其 分 到 最 相似 典范 的 集群 中 (正如 在 类 比 学 习 中 ， 相 似 
度 测量 的 选择 很 重要 。 如 果 属 性 十 数值 型 的 ， 它 可 能 束 与 欧 几 里 得 距 
离 一 样 简单 ， 但 还 有 其 他 许多 选择 ) 。 这 时 我 们 束 需 要 更 新 典范 。 毕 
竞 ， 集 群 的 典范 菊 是 其 成 员 的 平均 化 ， 尽 管 当 每 个 集群 中 只 有 一 个 成 
员 时 情况 也 是 如 此 ， 但 通常 这 种 情况 不 会 出 现在 我 们 将 一 堆 痢 成 员 加 
入 每 个 集群 之 后 。 因 此 对 每 个 集群 来 说 ， 我 们 先 计 算 其 成 员 的 平均 特 
性 ， 然 后 将 其 当 作 新 的 典范 。 这 时 ， 我 们 需要 再 更 新 集群 的 成 员 : 
为 典范 已 经 移 走 ， 与 给 定 实 体 最 接近 的 典范 可 能 也 已 经 改变 。 我 们 可 
以 把 某 个 类 别 的 典范 想象 成 一 只 泰 迪 熊 ， 把 男 外 某 个 类 别 的 典范 想象 
成 一 根 香 焦 。 也 许 在 第 一 轮 ， 我 们 会 把 动物 饼干 和 熊 归 为 一 类 ， 但 在 
第 二 轮 中 我 们 会 把 它 和 香 震 归 为 一 类 。 最 初 动物 饼干 看 起 来 像 玩具 ， 
但 现在 它 看 起 来 更 像 食 物 。 一 旦 我 重新 将 动物 饼干 归 入 香 焦 那 一 类 ， 
也 许 那个 类 别 的 典型 项 也 已 经 改变 ， 从 香 苔 变 为 饼 于 。 随 着 实体 被 分 
到 越 来 越 恰当 的 集群 中 ， 这 个 展 性 循环 会 继续 下 去 ， 直 到 实体 到 集群 
的 分 配 不 再 发 生 改 变 (因此 集群 典范 也 不 再 发 生 改 变 ) 。 


该 算法 被 称 为 k 均 值 算法 (k-means algorithm) ， 它 的 起 源 可 以 追 
漳 到 20 世 纪 50 年 代 。 它 精 客 、 人 简单 、 人 和 气 很 高 ， 但 有 几 个 不 足 ， 而 其 
中 的 一 些 问 题 和 其 他 问题 相 比 较 容 易 解决 。 例 如 ， 我 们 要 提前 确定 集 
群 的 数量 ， 但 在 真实 世界 中 ， 罗 比 总 会 遇 到 新 类 型 的 物体 。 有 一 个 选 
择 ， 怠 是 如 采 某 物 与 其 他 现存 的 物体 过 然 不 同 ， 那 么 孢 让 物体 开局 新 
的 集群 。 男 外 一 个 选择 ， 就 是 允许 集群 分 裂 ， 然 后 随 着 我 们 前 进而 合 
并 。 不 论 哪 种 方法 ， 我 们 都 会 想 让 算法 偏 回 选择 更 少 的 集群 ， 以 免 我 


们 最 后 以 每 个 物体 作为 自己 的 集群 而 结束 (如 果 我 们 想 让 集群 由 相似 
物体 组 成 ， 这 很 难 办 到 ， 但 显然 这 并 不 是 目标 ) 。 


有 一 个 更 大 的 问题 ， 那 就 是 k 均 值 算法 只 有 在 集群 易于 区 分 的 情况 
下 才能 起 作用 :在 超 空间 中 ， 每 个 集群 可 看 作 一 个 球 团 ， 每 个 团 距离 
彼此 都 很 还 ， 而 它们 都 有 相似 的 体积 ， 并 包含 相近 数量 的 物体 。 如 果 
其 中 的 一 个 团 出 现 故 障 ， 不 好 的 事情 束 会 发 生 : 细 长 的 集群 会 分 成 两 
个 不 同 的 集群 ， 较 小 的 那个 集群 会 被 附近 更 大 的 集群 吸收 ， 以 此 类 
推 。 笠 和 运 的 是 ， 还 有 一 个 更 好 的 选择 。 


假设 我 们 确认 ， 让 罗 比 在 真实 世界 中 闲逛 是 一 种 过 于 缓慢 、 麻 烦 
的 学 习 方法 。 相 反 ， 整 像 飞行 学 员 在 飞行 模拟 器 中 进行 学 习 一 样 ， 我 
们 会 让 罗 比 观看 计算 机 生成 的 图 片 。 虽 然 知 道 图 片 来 目 什 么 集群 ， 但 
我 们 不 会 告诉 罗 比 。 相 反 ， 我 们 生成 每 张 图 片 的 方法 ， 束 是 首先 要 随 
意 选 择 一 个 集群 (比如 说 玩具 ) ， 然 后 综合 该 集群 中 的 一 个 例子 〈 毛 
营 昔 的 、 棕 色 的 小 泰 迪 有 一 双 黑 色 的 大 眼睛 、 圆 耳 示 ， 还 戴 着 蝴蝶 
结 ) 。 我 们 还 是 随意 选择 例子 的 属性 : 尺寸 来 自 一 个 正 态 分 布 的 均 
值 ， 比 如 10 英 寸 ， 毛 是 柠 色 的 概率 为 80%， 否 则 就 为 日 色 ， 以 此 类 
推 。 当 罗 比 看 到 许多 图 片 由 这 个 方法 生成 后 ， 它 应 该 学 会 将 它们 分 为 
人 人 类、 家具 、 玩 具 等 类 别 中 ， 因 为 人 类 和 家 具 相 比 ， 人 类 更 像 人 类 。 
有 一 个 有 趣 的 问题 ， 如 果 我 们 从 罗 比 的 角度 看 ， 它 发 现 集群 的 最 佳 算 
法 是 什么 ? 答案 让 人 惊讶 : 朴素 贝 叶 斯 算法 。 我 们 开始 了 解 该 算法 
时 ， 它 是 监督 式 学 习 的 一 种 算法 。 区 别 在 于 现在 罗 比 不 知道 类 别 ， 因 
此 它 得 猜 这 些 东西 。 


显然 ， 如 采 罗 比 不 知道 它们 ， 事 情 台 会 一 帆 风 顺 ， 因 为 在 朴素 贝 
叶 斯 算法 中 ， 每 个 集群 都 由 其 概率 〈17% 生 成 的 物体 都 是 玩具 ) 和 集 
群 成 员 当 中 每 个 属性 的 概率 分 布 来 定义 (例如 ，80% 的 玩具 是 棕色 
的 ) 。 罗 比 可 以 估算 这 些 概 率 ， 只 要 数 清 数据 中 玩具 的 数量 ， 以 及 棕 
色 玩 具 的 数量 等 。 为 了 做 到 这 点 ， 我 们 需要 知道 哪个 物体 是 玩具 。 这 


看 起 来 很 坏 手 ， 但 最 后 发 现 我 们 已 经 知道 如 何 做 到 这 一 点 。 如 果 罗 比 
有 一 个 朴素 贝 叶 斯 算法 分 类 器 且 要 和 弄 明 日 新 物体 的 类 别 ， 它 要 做 的 整 
苹 应 用 分 类 侨 ， 然 后 在 给 定 物体 属性 的 条 件 下 计算 每 个 类 别 的 概率 

(小 小 的 、 毛 幕 昔 的 、 棕 色 的 、 有 大 眼睛 、 戴 着 贿 暴 结 ? 可 能 是 玩 
具 ， 也 可 能 是 动物 ) 。 


因此 罗 比 面临 的 是 鸡 和 和 蛋 的 问题 ， 如 果 它 知道 物体 的 类 别 ， 就 可 
以 通过 数 数 的 方式 来 掌握 类 别 的 模型 ， 如 果 它 知道 模型 ， 可 以 推断 物 
体 的 类 别 。 我 们 好 像 又 遇 到 困难 了 ， 但 远 非 如 此 : 只 要 在 开始 时 ， 以 
你 喜欢 的 方式 来 猜测 每 个 物体 的 类 别 “即使 是 随机 的 ) ， 然 后 你 就 有 
的 忙 了 。 从 那些 类 别 和 数据 中 ， 你 可 以 掌握 类 别 模型 ， 在 这 些 模型 的 
基础 上 ， 你 可 以 重新 推导 类 别 ， 以 此 类 推 。 和 在 一 看 ， 这 看 起 来 像 一 个 
状 狂 的 计划 : 它 可 能 绝 不 会 结束 ， 而 是 处 在 由 模型 推 新 类别 ， 到 由 类 
别 推断 模型 的 永恒 循环 中 。 即 使 它 停 止 了 ， 也 没有 理由 相信 会 停 在 有 
意义 的 集群 上 。 但 1977 年 ， 来 自 哈佛 大 学 的 三 个 统计 学 家 〈 亚 瑟 . 邓 普 
斯 特 、 南 : 莱 尔 德 、 唐 纳 德 : 鲁 宾 ) 表明 ， 这 个 疯狂 的 计划 其 实 可 以 生 
效 : 每 次 我 们 绕 着 圈 走 时 ， 和 集群 模 型 就 会 变 得 更 好 ， 而 当 模 型 是 可 能 
性 的 一 个 局 部 最 大 值 时 ， 循 环 结束 。 他 们 称 该 计划 为 期 望 最 大 化 演算 
法 (Expectation Maximization，EM 算 法 ) ， 其 中 E 表 示 期 望 (推断 预 
期 的 概率 ) ， 而 M 代 表 最 大 化 〈 估 算 可 能 性 最 大 的 参数 ) 。 他 们 还 表 
明 ， 许 多 之 前 的 算法 都 是 EM 的 特殊 情况 。 例 如 ， 为 了 掌握 隐 马 尔 科 夫 
模型 ， 我 们 交替 进行 以 下 工作 : 推断 隐藏 状态 ， 在 此 基础 上 估算 过 度 
和 观察 概率 。 无 论 何 时 ， 当 我 们 想 掌 握 某 个 统计 模型 ， 但 又 缺乏 一 些 
关键 信息 时 〈 例 如 ， 例 子 的 类 别 ) ， 就 可 以 利用 EM。 这 使 它 在 所 有 机 
需 学 习 中 成 为 最 受 欢 迎 的 算法 。 


你 可 能 已 经 注意 到 k 均 值 算法 和 EM 之 间 的 某 个 相似 性 ， 因 为 它们 
都 交替 进 行 两 项 工作 : 将 实体 分 配给 集群 ， 然 后 更 新 集群 的 描述 。 这 
并 不 是 一 场 意 外 : k 均 值 本 身 就 是 EM 的 一 种 特殊 情况 ， 当 所 有 属性 都 
会 有 “ 狭 罕 的 ? 正 态 分 布 时 〈 有 很 小 变量 的 正 态 分 布 ) ， 你 就 会 找到 


它 。 当 集群 重合 很 多 时 ， 举 个 例子 ， 实 体 可 能 会 归属 于 概率 为 0.7 的 集 
群 A 和 概率 为 0.3 的 集群 B。 而 在 信息 不 丢失 的 情况 下 ， 我 们 无 法 决定 
它 征 否 属于 集群 A。EM 会 将 其 考虑 进来 ， 会 将 实体 分 配给 两 个 集群 ， 
然后 根据 依据 来 更 新 它们 的 描述 。 但 是 ， 如 果 摘 述 非 常 集中 ， 实 体 归 
属于 附近 集群 的 概率 也 总 接近 1， 而 我 们 要 做 的 就 是 将 实体 分 配给 集 
群 ， 以 及 对 每 个 集群 中 的 实体 都 进行 平均 化 ， 以 获得 其 均值 ， 这 是 典 
型 的 k 均 值 算法 。 


到 目前 为 止 ， 我 们 只 看 到 如 何 掌 握 集 群 的 一 个 水 平 。 当 然 ， 这 个 
世界 要 丰富 得 多 ， 集 群 中 义 有 集群 ， 一 直到 单个 物体 :活着 的 东西 率 
类 成 植物 和 动物 ， 动 物 聚 类 成 为 哺乳 动物 、 乌 类 、 鱼 类 等 ， 一 直到 完 
物 和 家 狗 。 没 问题 ， 一 旦 我 们 掌握 了 集群 组 ， 束 可 以 将 其 看 作物 体 ， 
然后 反 过 来 对 其 进行 聚 类 ， 以 此 类 推 ， 直 到 对 所 有 东西 都 进行 聚 类 。 
或 者 ， 我 们 可 以 由 粗略 的 聚 类 作为 开始 ， 然 后 将 每 一 个 集群 分 成 亚 集 
群 ， 如 罗 比 的 玩具 被 分 成 填充 动物 玩具 、 组 狠 玩 具 和 等， 填充 动物 玩具 
又 可 分 为 泰 迪 熊 、 长 绒毛 小 猫 等 。 儿 童 似 乎 会 从 中 间 开 始 ， 然 后 起 起 
伏 伏 努力 前 进 。 例 如 ， 他 们 在 学 习 “ 动 物 ” 或 者 “小 猎犬 ”之 前 先 学 
会 “ 狗 ” 这 个 词 ， 这 对 于 罗 比 来 说 也 许 是 一 个 很 好 的 策略 。 


发 现 数 据 的 形状 


数据 浦 入 罗 比 的 大 脑 ， 靠 的 是 它 的 直觉 ， 或 者 是 数 百 万 个 亚马逊 
顾客 的 总 击 流 ， 将 大 量 实体 分 类 成 更 小 数量 的 集群 只 是 战役 的 一 半 ， 
男 一 半 则 会 缩短 每 个 实体 的 描述 。 罗 比 看 到 的 妈妈 的 第 一 张 照片 也 许 
包含 100 万 像素 ， 每 个 像素 都 有 目 己 的 颜色 ， 但 你 很 少 需要 100 万 个 变 
量 来 描述 脸 部 。 同 样 ， 在 亚马逊 网 站 上 点 击 每 一 样 东 西 ， 都 会 提供 关 
于 你 的 一 点 信息 ， 但 亚马逊 真正 想 知 道 的 是 你 喜欢 什么 、 不 喜欢 什 
么 ， 而 不 是 你 总 击 的 东西 。 前 者 非常 稳定 ， 在 后 者 中 可 能 会 有 点 体 


现 ， 当 你 利用 网 址 时 ， 后 者 会 过 无 限制 地 增长 。 渐 渐 地 ， 所 有 这 些 鼠 
标点 击 会 增加 对 你 的 品位 的 了 解 ， 还 附 上 一 张 图 ， 与 那些 像素 涌 集 起 
来 ， 形 成 你 的 品位 的 大 致 情况 ， 这 和 所 有 那些 像素 合 起 来 变 成 你 的 脸 
古 一 个 道理 。 问 题 在 于 如 何 添加 。 


一 张 脸 大 约 有 50 块 肌肉 ， 因 此 50 个 数字 足以 用 来 描述 所 有 可 能 的 
表情 ， 而 且 还 有 很 大 的 剩余 空间 。 有 眼睛 、 自 子 、 嘴 巴 等 的 样子 《就 是 
让 你 区 分 于 别人 的 特点 ， 的 数量 也 不 应 该 超过 几 十 种 。 毕 况 如 果 面 部 
特点 只 有 10 个 选择 ， 那 么 警察 局 的 拼图 师 束 能 大 概 描绘 出 疑犯 的 肖 
像 ， 足 以 用 来 认 出 他 。 你 可 以 汪 、 加 几 个 数量 ， 用 来 确定 光线 和 姿态 ， 
这 样 束 差不多 了 。 因 此 如 果 你 给 我 100 多 个 数量 ， 就 已 经 足以 重新 构造 
一 张 脸 部 图 片 。 相 反 ， 罗 比 的 大 脑 应 该 可 以 储存 脸 部 图 片 ， 然 后 快速 
简化 到 真正 起 到 作用 的 100 个 数量 。 


机 器 学 习 算 法 称 该 过 程 为 维 数 约 简 ， 因 为 该 过 程 将 大 量 的 可 见 维 
度 (像素 ) 简化 成 几 个 隐 性 维度 (表情 、 面 部 特征 ) 。 维 数 约 简 对 于 
应 对 大 数据 〈 像 每 秒 钟 通过 你 的 知觉 而 进入 的 数据 ) 来 说 很 关键 。 一 
张 图 可 能 抵 得 上 1000 个 字 ， 但 要 处 理 和 记 住 所 做 的 付出 ， 却 要 高 出 100 
万 倍 。 你 的 视觉 皮质 好 歹 把 大 数据 削减 为 数量 上 可 管理 的 信息 ， 足 以 
用 来 引导 这 个 世界 、 识 别人 和 物 、 记 住 你 看 见 的 东西 。 这 是 认 知 最 伟 
大 的 奇迹 之 一 ， 并 且 如 此 自然 ， 你 甚至 意识 不 到 自己 正在 做 这 些 事 。 


当 你 整理 书柜 上 的 书 时 ， 会 把 类 似 的 书 放 在 一 起 ， 你 正在 做 一 种 
维 数 约 简 ， 从 三 阔 的 主题 范围 到 一 个 维 数 的 书架 。 不 可 避免 的 是 ， 有 
些 书 密切 相关 ， 最 后 在 书架 上 却 离 得 很 还 ,但 你 还 是 可 以 想 办 法 避免 
这 样 的 情况 再 次 发 生 。 这 束 是 维 数 约 位 算法 所 做 的 工作 。 


假设 我 给 你 加 利 福 尼 亚 州 由 罗 奥 多 市 所 有 店铺 的 GPS (全 球 定位 
系统 ) 坐标 ， 然 后 你 把 其 中 的 几 个 画 在 了 一 张 纸 上 〈 见 图 8-1) 。 


图 8-1 


通过 看 图 8-1， 也 许 你 只 能 判断 帕 罗 奥 多 市 的 一 条 街道 是 西南 一 东 
北 问 。 虽 然 没 有 画 出 街道 ， 但 你 可 以 攒 直觉 知道 它 束 在 那里 ， 因 为 所 
有 的 点 落 在 一 条 直线 上 (或 者 接近 这 条 直线 ， 可 能 在 街道 两 边 ，。 的 
确 ， 这 条 街 是 大 学 街 ， 如 果 你 想 在 帕 罗 奥 多 市 购物 或 吃饭 ， 可 以 去 那 
里 。 你 一 旦 知道 大 学 街 上 的 店铺 ， 束 可 以 不 需要 两 个 数据 来 定位 它们 
了 ， 只 要 一 个 就 可 以 : 街道 编号 (或 者 ， 如 采 你 真 的 想 做 到 精确 ， 从 
商铺 到 加 利 福 尼 亚 站 的 距离 ， 在 西南 角 ， 此 处 正 是 大 学 街 的 起 点 ) 。 


如 有 果 把 更 多 的 店铺 画 上 去 ， 你 可 能 会 注意 到 有 些 在 十 字 街 上 ， 距 
离 大 学 街 有 点 距离 ， 还 有 几 个 完全 在 别处 ( 见 图 8-2) 。 


图 8-2 


虽然 如 此 ， 但 大 多 数 店铺 还 是 靠近 大 学 街 。 如 采 只 给 你 一 个 数据 
来 确定 店铺 的 位 置 ， 那 么 店铺 到 加 利 福 尼 亚 站 的 沿街 距离 吏 是 很 好 的 
选择 : 走 了 那 段 距离 之 后 ， 往 周围 看 也 许 束 足以 找到 该 店铺 。 所 以 ， 
你 把 “ 帕 罗 奥 多 市 店铺 位 置 ” 的 维 数 由 二 减 到 一 。 


虽然 罗 比 没有 你 的 优势 (拥有 高 度 进化 的 视觉 系统 ， 但 如 果 你 
想 让 它 去 伊利 特 洗衣 店 取 洗 好 的 衣物 ， 你 只 要 允许 他 的 由 罗 奥 多 市 地 
图 有 一 个 坐标 ， 它 就 可 以 用 一 种 算法 从 店铺 的 GPS 坐 标 中 “找到 ”大 学 
街 。 完 成 这 件 事 的 关键 在 于 要 注意 到 ， 如 有 果 把 x 和 y 坐 标的 原点 放 在 店 


铺 地 点 的 中 心 位 置 ， 然 后 慢 慢 地 旋转 坐标 轴 ， 当 旋转 大 约 60" 时 ， 店 铺 
距离 x 轴 最 近 ， 此 时 x 轴 与 大 学 街 近乎 重合 〈 见 图 8-3) 。 


图 8-3 


这 个 方向 《人 们 称 之 为 数据 的 第 一 主 成 分 ) 也 是 数据 传播 最 多 的 
方向 〈 请 注意 ， 如 果 你 将 商铺 投 在 x 轴 上 ， 在 图 8-3 的 右 图 中 它们 离 得 
比 左 图 中 的 要 远 ) 。 你 找到 第 一 主要 成 分 之 后 ， 可 以 找 第 二 个 ， 在 这 
个 例子 中 就 古 差 别 最 大 、 与 大 学 街 成 直角 的 方 同 。 在 地 图 上 ， 只 剩 下 
一 种 可 能 的 方向 (十字 街 的 方向 ) 。 如 采 帕 罗 奥 多 市 在 山坡 上 ， 前 两 
个 主要 成 分 之 中 的 一 个 将 会 部 分 处 于 上 坡 位 置 ， 第 三 和 第 四 主要 成 分 
可 能 束 世 在 空中 。 我 们 可 以 将 同样 的 思想 应 用 到 几 千 个 或 者 几 百 万 个 
维 数 中 ， 比 如 面部 图 片 ， 不 断 寻 找 最 大 差别 的 方 辐 ， 直 到 剩 下 的 变量 
很 小 ， 这 时 我 们 才能 停 下 来 。 例 如 ， 在 图 8-3 中 旋转 坐标 轴 之 后 ， 多 数 
商铺 的 y=0， 因 此 y 的 均值 会 很 小 ， 而 我 们 不 会 因为 忽略 y 轴 的 坐标 而 
丢失 过 多 的 信息 。 而 且 如 果 我 们 决定 保留 y， 那 么 z (在 空中 ) 肯定 也 
征 无 意义 的 。 结 末了 就 是 ， 寻 找 主 要 成 分 的 整个 过 程 ， 可 以 利用 线性 代 
数 一 次 性 完成 首先， 几 个 维度 往往 会 造成 高 维度 数据 中 大 量 的 变 
异 。 虽 然 事实 并 非 如 此 ， 但 盯 住 前 两 三 个 维度 不 放 往 往 会 产生 许多 洞 
见 ， 因 为 它 利用 了 你 视觉 系统 的 强大 感知 力 。 


主要 成 分 分 析 (principle-component analysis，PCA) ， 正 如 人 们 
对 该 过 程 的 了 解 ， 是 科学 家 的 工具 箱 中 关键 的 工具 之 一 。 可 以 说 ， 
PCA 与 无 人 监督 学 习 的 关系 ， 正 如 线性 回归 与 无 人 监督 多 样 性 之 间 的 
关系。 例如 ， 众 所 周知 的 全 球 变 暖 曲棍球 杆 曲 线 ， 束 是 找到 各 类 温度 
相关 数据 序列 〈 树 的 年 轮 、 冰 忌 等 ) 的 主要 成 分 并 假设 那 就 是 温度 的 
结果 。 生 物 学 家 利用 PCA 来 将 几 千 个 不 同 的 基因 表达 水 平 概 括 起 来 ， 
变 成 几 条 途径 。 心 理学 家 已 经 发 现 ， 个 性 可 以 简化 为 5 个 维度 (外 向 、 
随和 、 尽 责 、 神 经 质 、 开 放 性 ) ， 他 们 可 以 通过 你 的 推 特 文章 和 博客 
帖子 来 进行 推断 (黑猩猩 可 能 还 有 一 个 维度 一 一 反应 性 ， 但 推 特 数 据 
对 它们 并 不 适用 ) 。 把 PCA 应 用 到 国会 投票 时 ， 民 意 数 据 显示 ， 与 普 
裔 观点 相反 ， 政 治 并 不 主要 是 自由 党 与 保守 和 沈 之 间 的 苋 争 。 相 反 ， 人 
们 主要 在 两 个 维度 上 存在 差别 : 一 个 是 经 济 问题 ， 一 个 是 社会 问题 。 
我 们 一 方面 可 以 把 这 些 和 党 派 瓦解 变 成 单一 轴 ， 然 后 与 平民 主义 者 和 目 
由 论 痢 混合 起 来 ， 这 两 个 派别 会 处 于 两 个 极端 ， 这 样 就 创造 了 有 很 多 
温和 派 位 于 中 间 的 假象 。 斌 图 成 功 吸引 他 们 不 太 可 能 。 男 一 方面 ， 如 
果 自 由 党 和 自由 论 者 消除 了 对 对 方 的 厌恶 ， 那 么 他 们 惑 可 以 在 社会 问 
题 上 进行 联盟 ， 在 这 些 问题 上 ， 双 方 都 支持 个 人 自由 。 


当 罗 比 长 大 了 ， 可 以 利用 PCA 的 一 个 变量 来 解决 “鸡尾酒 会 ” 问 
题 ， 也 驶 是 从 嗜 杂 的 人 群 中 辨认 出 单个 声音 。 相 关 的 方法 可 以 帮助 它 
和 掌握 阅读 能 力 。 如 采 每 个 单词 吏 是 一 个 维度 ， 那 么 在 话语 空间 中 ， 一 
篇 文章 吏 是 一 个 点 ， 而 该 至 间 的 主要 方 问 则 是 意思 的 成 分 。 例 如 ,“ 奥 
巴 马 总 统 ” 和 "日 襄 ? 在 话语 空间 中 相距 很 远 ， 而 在 意义 空间 上 却 很 接 
近 ， 因 为 这 两 个 词 可 能 会 出 现在 相似 的 背景 下 。 信 不 信 由 你 ， 计 算 机 
就 需要 这 种 类 型 的 分 析 来 对 SAT (美国 学 术 能 力 测验 ) 文章 进行 打 
分 ， 并 且 做 得 和 人 类 一 样 好 。 网 飞 运用 了 相似 的 方法 ， 不 只 是 为 有 相 
同 品位 的 用 户 推 荐 电影 ， 它 首先 会 将 用 户 和 电影 纳入 更 低 维 度 的 “品位 
空间 ”中 ， 然 后 如 采 在 该 空间 中 某 部 电影 接近 用 户 ， 那 么 它 就 会 同 用 户 
推荐 。 利 用 这 种 方法 ， 它 可 以 癌 用 户 推 荐 之 前 连用 户 都 不 知道 目 己 会 
喜欢 的 电影 。 


虽然 如 此 ， 当 你 看 到 脸 部 数据 集 的 主要 成 分 时 ， 可 能 会 感到 失 

望 。 因 为 它们 并 不 像 你 期 望 的 那样 会 是 面部 表情 或 者 某 些 特征 ， 它 们 

看 起 来 很 猴 独 ， 因 为 十 分 模糊 而 无 法 辨认 。 这 是 因为 PCA 属 于 线性 算 

法 ， 因 此 所 有 可 能 的 主要 成 分 都 是 对 真实 脸 部 像素 的 平均 值 进行 加 权 

(也 称 为 “特征 脸 ”， 因 为 它们 是 数据 集中 协 方差 矩阵 的 特征 向 量 ， 但 

我 不 同意 这 点 ) 。 为 了 真正 了 解 面部 ， 以 及 世界 上 的 大 部 分 形状 ， 我 
们 和 需要 男 一 样 东西 一 一 非 线性 降 维 算法 。 


假设 我 们 缩小 帕 罗 奥 多 市 的 地 图 ， 而 给 你 海湾 地 区 主要 城市 的 
GPS 坐标 〈 见 图 8-4) 。 
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你 可 以 再 次 仅仅 通过 看 这 张 图 来 猜测 这 些 城市 钙 在 海湾 上 ， 如 果 
你 画 一 条 线 罕 过 这 些 城市 ， 可 以 仅 利 用 一 个 数据 就 可 以 确定 每 个 城市 


的 位 置 ， 沿 着 这 条 线 ， 该 城市 距离 旧金山 有 多 远 。 但 PCA 无 法 找到 这 
条 线 ， 相 反 ， 它 会 画 一 条 正好 在 海湾 中 间 的 线 ， 当 然 ， 那 里 并 没有 城 
市 。PCA 完 全 没有 解释 数据 的 形状 ， 而 是 将 其 模糊 化 了 。 


想象 一 下 我 们 打算 从 头 开始 对 海湾 地 区 进行 开发 。 我 们 已 经 决定 
每 个 城市 的 方位 ， 预 算 允 许 我 们 铺 一 条 连接 这 些 城市 的 公路 。 我 们 会 
铺 一 条 从 旧金山 到 圣 布 鲁 诡 ， 再 到 圣 马 特 奥 ， 最 后 一 直到 奥克兰 的 公 
路 。 这 条 公路 征 海 湾 地 区 很 完美 的 一 维 表示 方法 ， 而 且 可 以 通过 一 种 
简单 的 算法 来 实现 : 在 每 对 附近 的 城市 铺 一 条 路 。 当 然 ， 一 般 情 况 下 
这 种 做 法 会 建成 一 个 公路 了 网络， 而 不 仅仅 是 一 条 每 个 城市 都 会 使 用 的 
公路 。 我 们 可 以 强行 铺 一 条 最 接近 该 网 络 的 公路 ， 从 这 个 意义 上 讲 ， 
城市 之 间 在 这 条 公路 上 的 距离 ， 也 就 可 以 尽 可 能 地 与 在 网 络 上 的 距离 
相近 。 


对 于 非 线 性 降 维 算法 来 说 ， 节 受 欢 迎 的 算法 一 一 等 距 映 射 算法 ， 
就 可 以 实现 这 一 点 。 在 高 维度 空间 中 《比如 一 张 脸 ) ， 它 可 以 把 每 个 
数据 点 与 所 有 附近 的 点 《很 相似 的 脸 ) 连接 起 来 ， 依 据 得 出 的 网 络 计 
算 每 一 对 数据 点 之 则 的 最 短 距离 ， 然 后 找到 与 这 些 距离 最 接近 的 位 化 
坐标 。 与 PCA 相 反 ， 该 空间 中 的 “ 脸 部 坐标 ”往往 意义 重大 : 一 个 坐标 
可 能 表示 脸 部 朝 哪个 方向 〈 左 剖面 、 半 侧面 、 正 面 等 ) ; 另 一 个 坐标 
表示 这 张 脸 的 表情 (非常 伤心 、 有 点 伤心 、 不 动 声 色 、 开 心 、 非 常 开 
心 等 ) .……: 从 了 解 视 频 中 的 动作 到 探测 言语 中 的 情绪 ， 等 距 映 射 算 法 
有 惊人 的 能 力 ， 可 以 对 准 复杂 数据 中 最 重要 的 维度 。 


这 是 一 个 有 趣 的 实验 。 从 罗 比 的 眼睛 中 提取 出 视频 流 ， 在 图 片 空 
间 中 把 每 个 框架 当 作 一 个 点 ， 然 后 简化 那 组 图 片 变 成 单个 维度 。 你 会 
发 现 什 么 ? 时 间 。 束 像 图 书 管理 员 整 理 书 架 上 的 书 ， 时 间 会 将 每 张 图 
片 放置 在 与 之 最 接近 的 图 片 旁边 。 也 许 我 们 对 它 的 感知 ， 仪 仅 是 大 脑 
降 维 技术 的 目 然 结果 。 在 记忆 这 个 道路 网 络 中 ， 时 间 是 主要 的 通道 ， 
而 我 们 很 快 就 能 找到 它 。 时 间 ， 换 句 话 说， 束 是 记忆 的 主要 成 分 。 


拥护 享乐 主义 的 机 器 人 


聚 类 和 维度 简化 虽然 使 我 们 更 加 靠近 人 类 学 习 ， 但 仍 丢 失 了 一 些 
很 重要 的 东西 。 孩 子 们 并 不 只 是 消极 地 观察 这 个 世界 ， 他 们 会 行动 ， 
会 将 看 到 的 东西 擒 起 来 ， 和 这 些 东 西 玩 、 到 处 跑 、 吃 东西 、 器 、 间 问 
题 。 如 果 无 法 帮助 罗 比 与 周围 环境 互动 ， 那 么 最 先进 的 视觉 系统 也 毫 
无 用 处 。 罗 比 不 仅 要 知道 东西 的 位 置 ， 也 要 知道 每 一 刻 该 做 什么 。 原 
则 上 ， 我 们 可 以 教会 它 使 用 步 进 指令 (step-by-step instruction) ， 把 
传感器 读数 和 正确 的 行为 组 成 一 对 ， 但 这 只 对 精密 任务 可 行 。 采 取 什 
么 样 的 行为 由 你 的 目标 决定 ， 而 不 仅 取决 于 当前 感知 到 的 所 有 东西 ， 
这 些 目标 也 许 只 有 在 遥远 的 未 来 才能 实现 。 在 任何 情况 下 ， 步 进 监 督 
(step-by-step supervision) 都 不 应 该 被 采用 。 家 长 不 会 教 自己 的 孩子 
候 、 走 或 者 跑 ， 他 们 都 是 自己 摸索 。 目 前 为 止 , 所 有 的 学 习 算 法 都 不 
能 做 到 这 一 点 。 


人 类 确实 有 稳定 的 向 导 : 情感 。 我 们 追求 快乐 ， 固 避 痛 若 。 当 你 
碰 到 热 的 炉子 时 ， 会 本 能 地 缩 手 。 这 有 是 简单 的 部 分 ， 困 难 的 部 分 在 于 
学 习 如 何 一 开始 不 去 碰 那 个 炉子 。 你 需要 移动 手指 以 避免 之 前 没有 感 
受过 的 刺 痛 。 为 了 避免 这 种 刺 痛 感 ， 大 脑 要 将 它 和 你 碰 炉 子 的 那 一 
刻 ， 以 及 导致 这 种 剧 痛 的 动作 联系 起 来 ， 爱 德 华 : 桑 代 克 称 该 过 程 
为 “ 效 采 律 ”(law of effect) 。 人 们 更 有 可 能 重复 引起 愉悦 感 的 动作 ， 
而 导致 疼痛 感 的 动作 则 不 太 可 能 重复 。 过 去 的 愉悦 感 可 以 穿越 ， 可 以 
这 么 说 ， 而 行为 最 终 可 以 与 那些 离 得 很 远 的 效果 相 联系 。 和 其 他 动物 
相 比 ， 人 类 能 更 好 地 完成 这 种 远程 退 求 奖赏 的 任务 ， 而 且 这 对 我 们 的 
成 功 也 很 重要 。 在 一 个 著名 实验 中 ， 工 作 人 员 在 孩子 们 面前 展示 了 棉 
伦 糖 ， 并 告诉 他 们 如 末 可 以 坚持 几 分 钟 不 吃 柳 论 糖 ， 束 会 得 到 两 朱 棉 
化 糖 。 那 些 能 成 功 做 到 这 一 点 的 孩子 在 学 校生 活 、 成 人 后 的 生活 中 表 
现 得 会 更 好 。 也 许 不 那么 明显 ， 但 利用 机 器 学 习 来 改善 其 网 页 和 业务 
的 公司 也 会 面临 相似 的 问题 。 这 些 公 司 可 能 会 因为 短期 利益 而 做 出 改 
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， 比 如 销售 成 本 较 低 的 劣质 商品 ， 以 赚 取 同等 价格 优质 商品 的 者 
。 这 种 做 法 忽略 了 一 点 : 从 长 远 看 ， 这 样 的 商家 会 失去 顾客 。 


前 儿 间 中 学 习 算 法 都 由 “即时 满足 ”这 一 原则 引导 : 每 个 行为 ， 无 
论 征 标记 垃圾 邮件 ， 还 是 购买 股票 ， 都 会 从 "老师 ?那里 得 到 即时 奖励 
(或 者 处 罚 ) 。 有 一 个 机 器 学 习 的 子 域 致力 于 这 样 的 算法 : 进行 主动 
探索 ， 偶 然 得 到 炎 励 ， 然 后 型 清 笨 将 来 怎样 才能 再 得 到 奖励 。 这 很 像 
竖 儿 到 处 朴 和 把 东西 放 到 嘴 里 。 


这 个 过 程 称 为 “强化 学 习 ”， 你 的 第 一 个 家 用 机 右 人 可 能 会 经 常用 
到 这 种 方法 。 如 有 果 你 刚 打开 罗 比 的 包 狠 ， 并 启动 它 ， 殊 让 它 来 为 你 训 
鸡蛋 和 培根 ， 它 可 能 需要 点 时 间 。 然 而 ， 在 你 工作 的 时 候 ， 它 会 目 己 
探索 厨房 ， 注 意 各 类 东西 的 位 置 ， 以 及 你 用 哪 种 炉子 。 你 回来 的 时 
候 ， 饭 荣 已 经 做 好 了 。 


强化 学 习 的 一 个 重要 先驱 是 跳棋 游戏 程序 ， 这 是 IBM 的 研究员 阿 
瑟 . 塞 绪 尔 于 20 世 纪 50 年 代 编写 的 。 棋 盘 游 戏 是 强化 学 习 问 题 的 典范 : 
你 得 走 好 多 步 棋 ， 却 得 不 到 任何 有 反馈， 奖励 或 惩 到 都 在 最 后 一 刻 揭 
瞬 ， 其 形式 也 束 是 显 和 输 。 塞 缘 尔 的 程序 可 以 目 学 下 棋 ， 而 且 下 得 和 
大 多 数 人 一 样 好 。 它 不 会 直接 学 棋 弄 上 每 步 棋 该 怎么 走 ， 因 为 这 太 困 
难 ; 相反 ， 它 会 学 习 如 何 评价 每 个 棋 的 位 置 (从 该 位 置 出 发 说 的 概 
率 有 多 大 ) ， 然 后 选择 走 能 到 达 最 佳 棋 位 的 那 一 步 。 起 初 ， 它 知道 如 
何 进 行 评价 的 唯一 位 置 就 是 最 后 的 结果 : 顾 、 平 局 或 是 输 。 一 旦 它 知 
道 某 个 特定 位 置 能 启 ， 也 避 ® 知 道 哪些 位 置 有 利于 让 它 达到 这 个 位 置 。 
IBM 前 总 裁 小 托马斯 - 沃 森 就 预测 ， 该 程序 被 证 实 之 后 ，IBM 的 股票 会 
上 涨 15 个 点 。 最 后 ， 它 被 证 实 了 。 这 个 教训 并 没有 被 IBM 名 略 ， 后 来 
IBM 制 造 了 一 个 国际 象棋 冠军 和 一 个 《危险 边缘 》 有 冠军 。 


强化 学 习 的 首要 思想 是 : 并 不 是 所 有 的 状态 都 有 奖励 (正面 或 者 
负面 ) ， 但 每 种 状态 都 会 有 价值 。 在 棋 类 游戏 中 ， 唯 独 最 后 的 位 置 才 
有 奖励 《比如 1、0、-1， 分 别 代表 记 、 平 局 或 者 输 ) 。 虽 然 其 他 位 置 
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没有 即时 奖励 ， 但 有 价值 ， 因 为 通过 这 些 位 置 可 以 得 到 最 后 的 奖励 。 
因为 某 个 位 置 在 某 步 棋 时 可 起 到 “将 死 ”( 棋 类 术语 ， 的 作用 ， 从 实践 
角度 看 ， 这 相当 于 说 一 盘 棋 ， 所 以 有 较 高 的 价值 。 我 们 可 以 将 这 种 推 
理 方 式 传播 至 好 的 与 坏 的 开场 走 法 中 ， 即 使 在 那个 距离 内 连接 完全 不 
明显 。 在 视频 游戏 中 ， 奖 励 通 常 是 分 数 ， 而 一 种 状态 的 价值 束 古 从 该 
状态 开始 你 能 积 毗 的 分 数 。 在 现实 生活 中 ， 有 即时 奖励 要 好 于 未 来 奖 
励 ， 投 资 也 一 样 ， 未 来 奖励 的 回报 率 可 能 会 打折 扣 。 当 然 ， 交 励 取决 
于 你 选择 什么 行为 ， 强 化 学 习 的 目标 往往 是 采取 那个 能 获得 最 丰厚 奖 
励 的 行为 。 你 该 不 该 打 电 话 约 你 的 朋友 出 来 约会 ? 这 可 能 会 是 一 段 类 
好 关系 的 开始 ， 或 者 你 只 会 得 到 一 个 痛 藻 的 回绝 。 即 使 你 的 朋友 管 应 
约会 ， 这 个 约会 的 结果 可 能 好 也 可 能 坏 。 从 某 种 程度 上 说 ， 你 得 概括 
所 有 未 来 可 能 会 走 的 道路 ， 然 后 现在 做 决定 。 强 化 学 习 通 过 佑 算 每 种 
状态 的 价值 来 做 到 这 一 点 ， 从 该 状态 开始 你 所 期 望 得 到 的 全 部 奖励 ， 
然后 选择 能 将 奖励 最 大 化 的 行为 。 


假设 你 在 一 条 隧道 中 行走 ， 像 印第安 纳 :琼斯 那样 ， 然 后 你 到 了 一 
个 三 当 口 。 地 图 显示 左边 的 隧道 通 往 宝藏 ， 右 边 的 则 通 往 蛇 润 。 你 所 
站 位 置 的 价值 〈 束 在 三 岔口 前 ) 也 就 是 至 藏 的 价值 ， 因 为 你 会 选择 往 
左 走 。 如 果 你 总 征 选 择 最 佳 可 能 的 行为 ， 那 么 某 个 状态 的 价值 与 成 功 
状态 的 价值 的 差异 ， 仅 仅 在 于 你 因 实 施 该 行为 而 获得 的 即时 奖励 (如 
果 有 ) 。 如 果 我 们 知道 每 种 状态 的 即时 奖励 ， 就 可 以 利用 这 个 观察 来 
更 新 相 邻 状态 的 价值 ， 以 此 类 推 ， 直 到 所 有 状态 都 会 有 一 致 的 价值 。 
至 藏 的 价值 会 治 着 隧道 反 回 传播 ， 直 到 到 达 盆 路 口 或 者 超过 这 个 地 
方 。 你 一 旦 知道 每 种 状态 的 价值 ， 束 可 以 知道 在 每 种 状态 中 该 采取 什 
么 行动 (能够 将 即时 奖励 和 最 终 状态 价值 最 大 化 的 行动 ，。 这 很 大 程 
度 是 由 控制 论 理论 家 理 查 德 ' 贝 尔 曼 解决 的 ， 但 强化 学 习 中 真正 的 问题 
会 在 你 没有 某 区 域 的 地 图 时 出 现 。 你 唯一 可 做 的 束 是 探索 并 发 现 奖 励 
在 哪里 。 你 可 能 发 现 宝藏 ， 也 可 能 陷入 蛇 洞 。 每 当 你 要 采取 行动 时 ， 
就 会 注意 即时 奖励 和 最 终 状 人 态 ， 这 很 大 限度 上 可 以 由 监督 式 学习 来 实 
现 。 但 你 还 是 得 更 新 你 采取 行动 后 的 状态 的 价值 ， 使 其 与 刚刚 观察 的 


价值 一 致 ， 也 束 定 疯 ， 你 获得 的 奖励 加 上 所 处 新 状态 的 价值 。 当 然 ， 
这 个 价值 可 能 并 不 准确 ， 但 如 果 你 已 经 花 了 足够 长 的 时 间 来 边 徘徊 边 
做 这 件 事 ， 那 么 最 终 会 停 在 所 有 状态 的 正确 价值 以 及 对 应 行动 上 。 位 
言 之 ， 这 束 古 强化 学 习 。 


请 注意 强化 学 习 算 法 如 何 面 对 我 们 在 第 五 章 遇 到 的 利用 一 探索 困 
境 : 为 了 使 奖励 最 大 化 ， 你 很 目 然 地 想 选 择 能 达到 高 价值 状态 的 行 
动 ， 但 这 可 能 会 阻止 你 发 现 其 他 价值 更 高 的 奖励 。 强 化 学 习 算 法 解决 
这 个 问题 的 方法 是 时 而 选择 最 佳 行动 ， 时 而 随机 选择 (为 此 ， 大 脑 其 
至 似乎 有 一 台 “ 品 声 发 生 器 *”) 。 早 些 时 候 有 很 多 可 以 学 习 的 东西 ， 进 
行 大 量 探索 就 会 很 有 意义 。 一 旦 你 发 现 了 某 个 区 域 ， 最 好 集中 精力 来 
使 用 它 ， 这 吏 定 人 一 生 要 做 的 事 : 儿童 会 去 探索 ， 成 年 人 想 着 如 何 使 
用 (除了 科学 家 ， 因 为 他 们 是 永远 的 孩子 ) 。 儿 童 的 游戏 比 表 面 看 起 
来 要 严肃 。 如 有 果 进 化 过 程 产 生 一 个 没有 用 的 生物 ， 并 在 出 生 后 的 几 年 
给 其 父母 带 来 沉重 负担， 那么 付出 这 么 大 的 成 本 一 定 是 为 了 更 丰厚 的 
利益 。 实 际 上 ， 强 化 学 习 就 是 一 种 加 速 进化 过 程 一 一 壬 试 、 丢 弃 ， 然 
后 在 单个 生命 的 一 生 而 不 是 几 代 中 改进 行动 一 一 有 了 这 个 标准 ， 它 的 
效率 束 会 很 融 。 


对 于 强化 学 习 的 研究 和 目 20 世 纪 80 年 代 早期 才 正 式 开 始 ， 马 陕 诸 塞 
大 学 的 里 奇 - 院 顿 和 安 迪 :巴尔 托 参 与 了 人 研究 工作 。 他 们 认为 学 习 取 决 于 
与 环境 的 互动 ， 这 一 点 很 关键 ， 但 监督 算法 并 没有 发 现 这 一 点 ;而且 
他 们 在 动物 习 得 心理 学 领域 找到 灵感 。 院 顿 成 为 强化 学 习 的 主要 倡导 
者 。 另 一 个 关键 进展 发 生 在 1989 年 ， 当 时 剑桥 大 学 的 区 里 斯 ` 添 特 金 斯 
在 儿童 学 习 实验 发 现 的 推动 下 ， 实 现 了 强化 学 习 的 现代 形式 ， 即 在 未 
知 环境 中 进行 最 优 控制 。 


然而 ， 到 目前 为 止 ， 我 们 看 到 的 强化 学 习 算 法 还 不 是 很 现实 ， 因 
为 它们 在 某 个 状态 中 不 知道 该 做 什么 ， 除 非 它 们 之 前 进入 过 那 种 状 
仿 ， 而 在 现实 世界 中 ， 并 没有 了 哪 两 个 情形 是 完全 相似 的 。 我 们 需要 对 


之 前 所 处 的 状态 到 新 状 态 进 行 概括 。 幸 运 的 是 ， 我 们 已 经 知道 该 如 何 
做 到 这 一 点 : 用 强化 学 习 来 将 之 前 见 过 的 一 个 监督 式 学 习 算 法 〈 例 
如 ， 多 层 感 知 器 ) 包括 进来 。 这 时 神经 网 络 的 工作 就 是 预测 状态 的 价 
值 ， 而 反 向 传播 的 误差 信号 就 古 预 测 价值 与 所 观察 到 的 价值 之 间 的 差 
别 。 还 存在 一 个 问题 : 在 监督 式 学 习 中 ， 某 个 状态 的 目标 价值 总 是 一 
样 的 ， 但 在 强化 学 习 中 ， 它 会 不 断 变化 〈 这 是 达到 附近 状态 的 结 
果 ) 。 因 此 ， 带 有 归纳 性 的 强化 学 习 往往 无 法 确定 稳定 的 解决 方法 ， 
除非 内 部 学 习 算法 很 俏 单 ， 束 像 线性 函数 那样 。 虽 然 如 此 ， 上 市 有 神经 
网 络 的 强化 学 习 已 经 取得 一 些 显 闭 成 束 。 早 期 的 成 束 包 括 制 造 出 具备 
人 类 水 平 的 西洋 双 陆 棋 选 手 。 最 近 的 一 种 强化 学 习 算 法 ， 来 目 
DeepMind (伦敦 的 一 家 创业 公司 ， 在 电视 体育 游戏 及 其 他 简单 的 大 
型 电玩 中 打败 了 一 位 专家 级 的 人 类 选手 。 它 利用 深层 网 络 来 从 控制 台 
屏幕 低 像素 的 动作 中 预测 其 价值 。 有 了 端 对 端的 视野 、 学 习 和 控制 ， 
该 系统 与 人 工大 脑 至 少 有 一 点 相似 之 处 。 这 可 以 解释 为 什么 DeepMind 
古 一 家 没有 产品 和 利润 ， 员 工 也 密 密 无 几 的 公司 ， 但 谷歌 却 疝 它 投 了 5 
亿美 元 。 


除了 游戏 ， 人 研究 人 员 还 可 以 利用 强化 学 习 来 平衡 极点 、 控 制 简 笔 
画 的 体操 运动 员 、 使 汽车 倒车 入 位 、 芍 驶 直升机 颠倒 飞行 、 管 理 目 动 
电话 对 话 、 分 配 手 机 网 络 中 的 频道 、 调 度 电 梯 、 安 排 航天 飞机 货运 效 
载 等 。 强 化 学 习 也 对 心理 学 和 神经 科学 产生 了 影响 。 大 脑 利 用 神经 弟 
质 多 巴 胶 来 传播 期 望 奖 励 与 实际 奖励 之 间 的 区 别 。 强 化 学 习 解 释 了 书 
甫 洛 夫 条 件 反 射 作用 ， 但 不 像 行 为 主义 ， 它 允许 动物 有 内 部 心理 状 
仿 。 现 食 的 蜜蜂 会 利用 它 ， 在 迷 襄 中 找到 奶酪 的 老鼠 也 是 如 此 。 你 的 
日 第 生活 由 一 连 串 你 很 少 注意 到 的 、 由 强化 学 习 形 成 的 奇迹 组 成 。 你 
起 床 、 罕 衣服 、 吃 早餐 ， 然 后 开车 去 上 班 ， 这 些 过 程 中 你 一 直 在 思考 
别 的 事情 。 实 际 上 ， 强 化 学 习 会 不 断 精 心安 排 和 调整 这 个 奇妙 的 动作 
交响 曲 。 强 化 学 习 片 段 (为 习惯 ) 组 成 大 多 数 你 做 的 事 。 当 你 觉得 饭 
了 时 ， 会 走 到 冰箱 前 ， 拿 一 点 和 零食。 正如 人 查尔斯. 杜 布 格 在 《习惯 的 力 
量 》 一 书 中 表明 的 那样 ， 理 解 并 控制 由 线索 、 日 肖 、 奖 励 组 成 的 循环 


关系 是 成 功 的 关键 ， 不 仅 对 个 人 人， 而且 对 企业 甚至 整个 社会 来 说 都 是 
这 样 。 


作为 强化 学 习 的 创始 人 ， 里 奇 : 院 顿 是 最 具有 热情 的 。 对 于 他 来 
说 ， 强 化 学 习 就 古 终 极 算法 ， 而 且 解 决 了 这 个 问题 束 相 当 于 解决 了 人 
工 六 能 问题 。 但 克 里 斯 - 沃 符 金 斯 却 并 不 满意 。 他 看 到 许多 儿童 能 做 但 
强化 学 习 算 法 做 不 了 的 事 : 解决 问题 ， 经 过 几 次 壬 试 之 后 能 更 好 地 解 
决 回 题 ， 制 订 计 划 ， 获 取 逐 渐 抽 象 的 知识 。 广 运 的 是 ， 对 于 这 些 较 高 
水 平 的 能 力 ， 我 们 也 有 相应 的 学 习 算法 ， 其 中 最 重要 的 就 是 组 块 算 
法 。 


熟 能 生 巧 


学 习 的 目的 束 古 为 了 更 好 地 实践 。 你 现在 可 能 记 不 得 学 着 系 鞋 带 
有 多 难 了 。 一 开始 ， 你 完全 学 不 会 ， 虽 然 当 时 你 已 经 5 多 了。 接着 ， 你 
的 鞋 带 松 开 的 速度 比 你 系 的 速度 还 要 快 。 慢 慢 地 ， 你 学 会 更 快 、 更 好 
地 系 鞋 这 了 ， 直 到 你 不 目 觉 地 系 鞋 带 。 很 多 其 他 事情 也 是 同样 的 道 
理 ， 比 如 疏 、 走 、 跑 、 骑 单 和 车、 开车、 阅读、 写作、 算术、 演奏 乐 
郁 、 进 行 体育 活动 、 做 饭 和 使 用 计算 机 等 。 讽 刺 的 是 ， 人 在 最 痛 否 时 
学 到 的 东西 往往 最 多 。 在 早期 ， 每 一 步 都 很 艰难 ， 你 不 断 失 败 ， 即 便 
你 成 功 了 ， 结 果 也 并 不 会 有 多 好 。 当 你 掌握 高 尔 夫 挥 杆 动作 或 者 网 球 
发 球 之 后 ， 可 能 会 花 几 年 完善 这 些 技能 ， 但 这 些 年 你 取得 的 进步 会 比 
开始 学 时 的 前 几 周 少 很 多 。 通 过 练习 你 会 做 得 更 好 ， 但 不 会 以 恒定 的 
速度 进步 : 一 开始 你 进步 很 快 ， 接 下 来 束 没 那么 快 了 ， 最 后 变 得 很 
慢 。 无 论 是 玩 游 戏 还 是 弹 吉他 ， 技 能 提高 时 间 曲 线 图 (你 做 某 事 的 表 
现 或 者 做 某 事 所 花费 的 时 间 ) 有 一 个 非常 特殊 的 形式 ( 见 图 8-5) 。 
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图 8-5 


这 种 类 型 的 曲线 被 称 为 “ 寡 法 则 ” (a power law) ， 因 为 随 着 时 间 
达到 某 负 需 时 ， 表 现 会 出 现 变化 。 例 如 ， 在 图 8-5 中 ， 完 成 所 需 的 时 间 
与 党 试 的 次 数 的 负 二 次 方 成 正比 (或 者 相当 于 1 除 以 尝试 次 数 的 平 
方 ) 。 几 乎 每 项 人 类 技能 都 会 遵循 民法 则 ， 不 同 的 过 会 对 应 不 同 的 技 
能 (相反 ，Windows 系 统 则 不 会 随 着 实践 次 数 的 增多 而 变 快 一 一 这 是 
微软 该 解决 的 问题 。) 


1979 年 ， 艾 伦 : 纽 丘 尔 和 保罗 :有 罗 森 布 鲁 姆 开始 探索 这 个 所 谓 的 “过 
法 则 ?实践 存在 的 原因 。 纽 厄 尔 是 人 工 智 能 的 创始 人 之 一 ， 也 是 主要 的 
认 知 心理 学 家 ， 而 罗 和 森 布 鲁 姆 则 是 他 在 卡 内 基 - 梅 隆 大 学 的 研究 生 之 
一 。 当 时 ， 没 有 哪个 实践 模式 可 以 解释 虹 法 则 ， 纽 丘 尔 和 有 罗 和 森 布 鲁 姆 
怀疑 这 可 能 与 组 块 有 关 。 组 块 是 一 个 来 目 感知 与 记忆 心理 学 的 概念 。 


我 们 以 组 块 的 形式 来 感知 并 记 住 东西 ， 而 在 任意 给 定 的 时 间 内 (根据 
乔治 : 米 勒 的 经 典 论文 的 结论 为 7+2) ， 我 们 只 能 通过 短暂 记忆 来 记 住 
这 么 多 组 块 。 关 键 是 将 信息 聚集 成 组 块 可 以 让 我 们 处 理 得 更 多 ， 和 否则 
我 们 处 理 不 了 那么 多 信息 。 这 就 是 电话 号 码 有 连 字符 的 原因 : 1-723- 
458-3897 比 17234583897 要 好 记得 多 。 赫 伯 特 :西蒙 ( 纽 厄 尔 的 长 期 合 
作 伙 伴 以 及 人 工 智能 的 共同 创始 人 ) 早期 已 经 发 现 ， 新 棋 手 和 专业 棋 
手 的 主要 区 别 在 于 ， 新 棋 手 一 次 记 一 个 象棋 位 置 ， 而 专业 棋 手 则 看 到 
涉及 多 个 位 置 、 更 大 的 模式 。 要 提高 国际 象棋 技能 主要 涉及 获取 更 
多 、 更 大 这 样 的 组 块 。 纽 厄 尔 和 罗 森 布 鲁 姆 假设 ， 在 掌握 所 有 技能 

不 仅仅 是 下 棋 技 能 中 ， 类 似 的 过 程 在 起 作用 。 


在 感知 和 记忆 中 ， 组 块 仅仅 是 一 种 符号 ， 代 表 了 其 他 符号 的 模 
式 ， 了 网 像 AI 代 表 人 工 智能 。 纽 捷 尔 和 罗 和 森 布 鲁 姆 将 这 个 思想 运用 到 纽 
厄 尔 和 西蒙 早期 创建 的 问题 解决 理论 中 。 纽 厄 尔 和 西蒙 让 实验 对 象 解 
决 问题 ， 例 如 ， 在 黑板 上 利用 一 个 数学 公式 推导 出 另外 一 个 数学 公 
式 ， 同 时 大 声 描述 他 们 如 何 得 到 这 个 公式 。 他 们 发 现 ， 人 类 解决 问题 
的 方式 是 将 问题 分 解 为 小 问题 ， 再 将 小 问题 再 分 解 为 更 小 的 问题 ， 然 
后 系统 地 减少 初始 状态 (比如 第 一 个 公式 ) 与 目标 状态 (第 二 个 公 
式 ) 之 间 的 差异 。 然 而 ， 这 样 做 需要 找到 能 起 作用 的 行动 顺序 ， 这 需 
要 时 间 。 纽 丘 尔 和 罗 和 森 布 鲁 姆 的 假设 是 ， 每 次 当 我 们 解决 一 个 小 问题 
时 ， 会 形成 一 个 组 块 ， 这 样 我们 束 可 以 直接 从 解决 问题 前 的 状态 进入 
解决 问题 后 的 状态 。 这 种 意义 下 的 组 块 有 两 个 部 分 : 刺激 (你 从 外 部 
世界 或 者 短暂 记忆 中 识别 出 的 模式 ) 和 反馈 〈 你 因此 而 执行 的 行动 顺 
序 ) 。 一 旦 掌握 一 个 组 块 ， 你 就 会 将 其 储存 在 长 期 记忆 中 ， 下 次 你 解 
决 同 样 的 小 问题 时 ， 束 可 以 直接 应 用 该 组 块 ， 会 万 省 寻找 的 时 间 。 这 
个 过 程 在 所 有 水 平 层面 都 会 发 生 ， 直 到 你 找到 一 个 能 解决 所 有 问题 的 
组 块 ， 并 且 能 够 目 行 解决 这 些 问题 。 为 了 系 好 你 的 鞋 市 ， 移 打 结 ， 然 
后 用 一 端 栓 个 芝 ， 用 这 个 父 绕 住 另 一 器， 然后 将 其 从 中 间 的 洞 罕 过 。 
对 于 5 多 的 孩子 来 说 ， 这 些 并 不 简单 ， 可 一 旦 你 掌握 相应 的 组 块 ， 就 差 


不 多 学 会 了 。 


纽 厄 尔 和 罗 和 森 布 鲁 姆 将 他 们 的 组 块 程序 应 用 于 解决 一 系列 问题 ， 
测量 它 在 每 次 竹 试 中 花费 的 时 间 ， 这 束 弹 出 一 系列 吧 法 则 曲线 。 但 这 
仅仅 是 开始 ， 接 下 来 他 们 将 组 块 并 入 “ 独 增 ”(〈Soar) 理论 中 ， 这 是 纽 
厄 尔 和 另 一 个 学 生 约 其 : 莱 尔 德 一 起 创建 的 一 般 认 知 理论 。“ 狐 增 ” 程 序 
不 仅 为 茶 个 预 设 了 等 级 的 目标 而 努力 ， 当 每 次 过 到 障碍 时 ， 还 都 可 以 
定义 并 解决 新 的 季 问 题 。 一 旦 它 形 成 新 的 组 块 ,“ 独 增 ” 程 序 驶 会 对 其 
进行 一 般 化 ， 以 应 用 到 相似 的 问题 中 ， 这 与 逆 回 演绎 的 方式 类 似 。 除 
了 需 法 则 实践 , “ 独 增 ”中 的 组 块 最 后 成 为 许多 学 习 现象 的 民 好 模型 。 
通过 对 数据 和 类 推 法 进行 组 块 ， 它 甚至 可 以 应 用 到 掌握 新 知识 中 。 于 
古 纽 厄 尔 、 罗 和 森 布 鲁 姆 、 羔 尔 德 做 出 这 样 的 假设 一 一 组 块 是 学 习 所 需 
的 “唯一 ”机制 ， 换 句 话 说 ， 就 是 终极 算法 。 


作为 典型 的 人 工 闹 能 类 型 ， 纽 厄 尔 、 西 过 及 其 学 生 和 拥护 者 都 非 
党 相信 问题 解决 的 重要 地 位 。 如 采 问 题解 决 者 很 强大 ， 那 么 学 习 算 法 
忠 会 依赖 其 能 力 而 变 得 人 简单。 的确 ， 学 习 只 是 另外 一 种 问题 的 解决 方 
式 。 纽 厄 尔 和 同伴 共同 努力 ， 将 所 有 学 习 人 简化 为 组 块 ， 将 所 有 认 知 简 
化 为 “ 猩 增 ” 程 序 ， 最 后 他 们 失败 了 。 其 中 一 个 问题 是 ， 竹 试 这 些 步 驶 
的 成 本 变 得 很 高 ， 程 序 变 得 越 来 越 慢 。 从 茶 种 程度 上 说 ， 人 类 要 避免 
这 一 点 的 发 生 ， 但 到 目前 为 止 ， 该 领域 的 研究 人 员 还 找 不 到 解决 方 
法 。 最 重要 的 是 ， 壬 试 将 强化 学 习 、 监 督 式 学 习 ， 以 及 别 的 一 切 位 化 
成 组 块 ， 基 本 上 会 制造 更 多 的 问题 ， 而 不 会 解决 问题 。 最终 ,“ 猛 
增 ” 的 研究 人 员 承 认 失 败 ， 然 后 将 那些 其 他 类 型 的 学 习作 为 分 离 机 制 并 
入 “ 猛 增 "。 虽 然 如 此 ， 组 块 还 古 学 习 算法 的 典型 例子 ， 受 到 心理 学 的 
局 发 ， 还 古 真 正 的 终极 算法 。 无 论 它 最 后 变 成 什么 ， 肯 定 会 分 至 其 通 
过 实践 得 到 提升 的 能 力 。 


组 块 和 强化 学 习 在 商业 中 的 应 用 不 如 在 监督 式 学 习 、 育 类 或 者 维 

数 人 简约 中 广泛 ， 但 征 通 过 与 环境 互动 进行 的 相似 学 习 类 型 是 掌握 行动 
(或 相应 行动 ) 的 效果 。 如 果 现 在 你 的 电子 商务 网 站 主页 的 背景 是 监 
色 的 ， 你 在 想 让 它 变 成 红色 会 不 会 提高 销量 ， 那 么 可 以 将 红色 网 页 用 


在 10 万 个 随机 挑选 的 用 户 映 上 试 试看 ， 然 后 将 结果 与 常规 网 站 进行 比 
较 。 这 种 手法 称 为 A/B 测 试 ， 起 初 主要 用 在 药物 试验 中 ， 之 后 运用 到 
许多 领域 。 在 这 些 领域 中 ， 数 据 可 以 根据 需要 集中 起 来 ， 从 宫 销 到 对 
外 援助 。 它 还 可 以 概括 成 一 次 性 尝试 许多 变化 组 合 ， 而 不 会 忽略 什么 
样 的 改变 会 带 来 什么 (或 者 失去 什么 ) 。 诸 如 亚 马 进 、 谷 歌 之 类 的 公 
司 对 此 深信 不 疑 ， 你 可 能 已 经 不 知 不 觉 参 与 了 几 和 于 项 AB 测 试 。A/B 测 
斌 证明 常 听 到 的 批评 言论 的 错误 : 大 数据 只 对 寻找 相关 关系 有 好 处， 
对 导 找 因果 关系 则 没 用 。 除 了 哲学 要 点 ， 掌 握 因 果 夭 系 丈 是 掌握 行动 
的 效果 ， 而 任何 有 数据 流 并 能 影响 数据 流 的 人 都 能 做 到 这 一 点 一 一 从 
一 少 孩 子 在 浴缸 中 戏 水 到 总 统 再 次 参加 葛 选 。 


如 有 果 我 们 赋予 罗 比 机 器 人 在 本 书 中 提 到 的 所 有 学 习 能 力 ， 它 会 变 
得 很 智能 ， 但 还 会 有 后 孤 僻 。 它 会 把 世界 看 成 一 群 独立 的 物体 ， 可 以 
对 其 进行 识别 、 操 纵 甚至 预测 ， 但 它 不 理解 世界 是 一 张 相 互联 系 的 网 
络 。 罗 比 医 生 会 很 擅长 根据 病人 的 症状 来 诊断 其 所 有 感冒 ， 但 无 法 猜 
想 这 个 病人 患 的 生猪 流感 ， 因 为 它 和 感染 该 疾病 的 人 有 过 接触 。 在 谷 
歌 出 现 之 前 ， 搜 索引 警 会 通过 看 它 的 内 容 来 决定 某 网 页 是 否 与 你 的 搜 
索 相 天 一 一 还 有 别 的 吗 ? 布 林 和 佩 奇 的 观点 是 ， 与 该 网 页 相关 的 最 明 
显 标志 在 于 ， 相 关 的 网 页 会 与 它 有 链接 。 同 样 的 道理 ， 如 果 你 想 预 测 
某 个 青少年 是 否 有 开始 吸烟 的 危险 ， 到 目前 为 止 ， 你 能 做 得 最 有 效 的 
事 殉 征调 查 他 的 好 朋友 是 否 吸 烟 。 一 种 酶 的 形状 与 其 分 子 形状 的 天 
系 ， 避 3 像 锁 与 钥 是 的 天 系 一 样 不 可 分 割 。 捕 食 者 与 猎物 有 缠绕 很 紧 的 
属性 ， 每 种 属性 会 进化 出 打败 对 方 的 属性 。 在 所 有 这 些 例子 中 ， 了 解 
一 个 实体 的 最 佳 方法 一 一 无 论 它 是 人 、 动 物 、 网 页 还 是 分 子 一 一 整 是 
了 解 它 如 何 与 其 他 实体 进行 连接 。 这 驶 需要 一 种 新 的 学 习 方式 : 不 会 
将 数据 当 作 不 相关 物体 的 随机 样本 ， 而 是 对 复杂 网 络 的 一 警 。 网 络 中 


的 节点 会 互相 作用 ;， 你 对 这 个 市 点 做 了 什么 ， 会 影响 到 其 他 节点 ， 最 
后 还 会 返回 来 对 你 进行 影响 。 关 联 学 习 算法 ， 正 如 它们 的 名 字 那 样 ， 
也 许 不 太 有 社交 智能 ， 但 它们 将 是 最 好 的 东西 。 在 传统 统计 学 习 中 ， 
每 个 人 都 是 一 座 岛 ， 与 世 隔绝 :在 关联 学 习 中 ， 每 个 人 都 是 一 块 陆 
地 ， 是 主要 大 陆 的 一 部 分 。 人 类 是 天 联 学 习 者 ， 被 相互 连接 起 来 ， 我 
们 如 有 果 想 让 罗 比 成 长 为 一 个 有 知觉 、 擅 长 社交 的 机 融 人 ， 束 需要 对 它 
进行 布线 ， 然 后 连接 。 


我 们 面临 的 第 一 个 困难 就 十 ， 当 数据 变 成 整个 大 网 络 时 ， 似 乎 谍 
没有 许多 例子 来 学 习 了 ， 只 剩 一 个 ， 而 且 这 人 不够。 朴素 贝 叶 斯 算法 通 
过 数 发 烧 流 感 病人 的 数量 来 知道 发 烧 生 感冒 的 一 种 钙 状 。 如 采 它 只 能 
看 到 一 位 病人 ， 可 能 会 得 出 结论 : 流感 总 会 引起 发 烧 ， 或 者 不 会 引起 
发 民 。 这 两 个 结论 都 是 错 的 。 我 们 想 确 认 流 感 是 传染 性 疾病 ， 方 法 吕 
征 通 过 观察 在 社交 网 络 中 的 感染 模式 一 一 感染 的 人 群 在 这 边 ， 没 有 感 
染 的 人 群 在 那 边 一 一 但 我 们 只 能 看 到 一 个 模式 ， 即 使 它 处 于 70 亿 人 的 
网 络 中 ， 因 此 如 何 概 括 尚 不 清晰 。 关 键 在 于 要 注意 到 ， 肉 入 该 网 络 
中 ， 我 们 有 许多 对 人 的 实例 。 如 采 熟 人 与 未 曾 相 见 的 人 相 比 ， 更 有 可 
能 患 流 感 ， 那 么 认识 流感 病人 也 会 让 你 成 为 流感 病人 的 可 能 性 增 大 。 
然而 ， 不 垩 的 十， 我 们 不 能 只 数 数据 中 都 患 流感 的 熟人 的 对 数 ， 然 后 
把 这 些 数 变 成 概率 。 因 为 一 个 人 可 以 有 许多 熟人 ， 而 所 有 成 对 的 概率 
不 会 总 计 为 相关 模式 。 举 个 例子 ， 该 模式 会 让 我 们 计算 在 给 定 他 们 熟 
人 的 情况 下 ， 计 算 某 人 得 流感 的 概率 。 当 例子 都 分 开 时 ， 我 们 束 不 会 
有 这 样 的 问题 了 ， 我 们 也 不 会 关注 这 个 例 了 于 ， 比 如 丁 死 家庭 中 ， 每 个 
人 都 住 在 目 己 的 “项 怠 ” 上 。 这 并 不 是 真实 世界 ， 而 且 无 论 如 何 ， 这 里 
绝对 不 会 有 什么 流行 病 。 


解决 办 法 就 是 找到 一 组 特征 ， 并 掌握 它们 的 权 值 ， 就 像 在 马尔 科 
夫 网 络 中 那样 。 对 于 每 个 人 (xX) ， 我 们 可 以 有 “X 患 有 流感 ”的 特征 ， 
对 于 每 对 熟人 勾 和 Y， 特 征 就 是 “Xx 和 Y 患 有 流感 "， 等 等 。 正 如 在 马尔 
科 夫 网 络 中 那样 ， 最 大 似 然 权 值 使 每 个 特征 以 在 数据 中 观察 到 的 频率 


出 现 。 如 采 有 很 多 人 上 患 有 流感 ， 那 么 “X 患 有 流感 ”的 权 值 整 会 比较 
高 。 如 有 果 当 X 患 有 流感 时 ， 训 人 Y 也 患 有 流感 的 概率 会 比 随机 抽 选 的 网 
络 成 员 患 有 流感 的 概率 大 ， 因 此 “X 和 Y 都 患 有 流感 "的 权 值 会 较 高 。 如 
果 40% 的 人 有 流感 ， 那 么 16% 的 所 有 熟人 两 人 组 也 会 串 有 流感 ， 那 
么 “X 和 Y 都 患 有 流感 "的 权 值 将 等 于 和 零 ， 因 为 我 们 不 需要 该 特征 来 准确 
复制 数据 的 统计 (0.4x0.4=0.16) 。 如 采 特 征 的 权 值 为 正 ， 流 感 更 有 可 
能 发 生 在 人 群 当 中 ， 而 不 会 十 分 容易 随机 感染 某 个 人 。 也 融 是 说 ， 如 
果 你 熟悉 的 人 患 有 流感 ， 那 么 你 感染 流感 的 概率 会 更 大 。 


请 注意 ， 网 络 会 为 每 对 熟人 巍 予 分 离 的 特征 ， 比 如 爱丽 丝 和 鲍 动 
都 患 有 流感 ， 爱 丽 丝 和 克 里 斯 都 患 有 流感 ， 等 等 。 但 我 们 无 法 为 每 个 
两 人 组 确定 一 个 分 离 权 值 ， 因 为 他 们 只 有 一 个 数据 点 (无 论 是 否 受 感 
染 了 ) 。 对 于 尚未 确诊 的 网 络 成 员 ， 我 们 不 能 将 他 们 一 概 而 论 \ 伊 薰 
符 和 扎 克 都 患 有 流感 吗 ) 。 我 们 只 能 在 自己 见 过 的 所 有 实例 的 基础 
上 ， 为 相同 形式 的 所 有 特征 确定 一 个 权 值 。 实 际 上 ,，“X 和 Y 患 有 尝 
感 ” 是 特征 模板 ， 可 以 利用 每 对 熟人 进行 实例 化 (爱丽 丝 和 鲍 过 ， 爱 丽 
缘 和 克 里 斯 ， 等 等 ) 。 模 板 的 所 有 实例 的 权 值 被 < 捆绑 在 一 起 "， 从 这 
个 意义 上 讲 ， 它 们 有 同样 的 价值 。 也 就 是 说 ， 即 便 只 有 一 个 实例 〈 整 
个 网 络 ) ， 我 们 也 可 以 进行 推理 。 在 非 关联 学 习 中 ， 一 个 模型 的 参数 
仅 以 一 种 方式 捆绑 一 一 越过 所 有 独立 例子 《比如 所 有 被 诊断 过 的 病 
人 ) 。 在 关联 学 习 中 ， 每 个 我 们 创造 的 特征 模板 将 捆绑 所 有 实例 的 参 


数 。 


我 们 不 仅 限 于 成 对 的 或 者 单独 的 特征 。 脸 书 想 预 测 哪些 人 是 你 的 
朋友 ， 这 样 才 能 为 你 推荐 朋友 ， 为 此 它 可 以 利用 “朋友 的 朋友 可 能 成 为 
朋友 ”这 个 规则 ， 因 为 每 个 实例 都 涉及 三 个 人 。 比 如 ， 如 果 爱 丽 丝 和 钱 
靳 是 朋友 ， 而 鲍 靳 和 殉 里 斯 也 是 朋友 ， 那 么 爱丽 丝 和 死 里 斯 有 可 能 成 
为 朋友 。HTE: 门 肯 说 过 一 句 妙语 : 如 末 一 个 人 插 的 钱 比 他 的 妻子 的 妹 
妹 的 丈夫 要 多 ， 那 么 他 就 是 富有 的 。 这 人 句 话 涉及 四 个 人 。 这 些 规 则 中 
的 每 一 条 都 可 以 变 成 关联 模型 中 的 特征 模板 ， 而 在 特征 出 现在 数据 中 


的 频率 的 基础 上 ， 可 以 确定 它 的 一 个 权 值 。 正 如 在 马尔 科 夫 网 络 中 那 
样 ， 特 征 也 可 以 通过 数据 确定 。 


关联 学 习 算 法 可 以 从 一 个 网 络 推 广 到 男 一 个 网 络 (比如 确定 流感 
如 何在 亚特兰大 传播 的 模型 ， 然 后 在 波士顿 运用 ) ， 它 们 也 可 以 在 多 
个 网 络 上 学 习 【比如 亚特兰大 和 波士顿 ， 假 设 亚特兰大 没有 人 和 波 士 
顿 人 有 联系 ) 。 不 像 “ 常 规 ” 学 习 ， 这 里 所 有 的 例子 必须 有 同等 数量 的 
属性 。 在 关联 学 习 中 ， 网 络 可 以 在 大 小 方面 有 所 不 同 。 同 样 的 模板 ， 
较 大 的 网 络 会 比较 小 的 网 络 有 更 多 的 实例 。 当 然 ， 从 较 小 的 网 络 到 较 
大 的 网 络 的 推广 可 能 准确 ， 也 可 能 不 准确 ， 需 要 指出 的 是 ， 没 有 什么 
会 阻止 它 。 从 局 部 上 看 ， 大 型 网 络 往 往 和 小 型 网 络 的 表现 没有 差异 。 


关联 学 习 算 法 能 达到 的 最 佳 效果 束 是 让 懒散 的 老师 变 得 勤奋 。 对 
于 普通 分 类 需 来 说 ， 没 有 归 类 的 例子 野 无 用 处 。 如 果 我 只 知道 病人 的 
证 状 ， 却 不 知道 诊断 结果 ， 那 么 这 对 我 学 习 看 病 翅 无 帮助 。 如 采 我 知 
道 患 者 的 一 些 朋 友 感 染 了 流感 ， 那 么 可 能 间接 证 明 他 也 感染 了 流感 。 
在 一 个 网 络 中 确诊 几 个 人 ， 然 后 将 这 些 诊断 结果 推测 到 他 们 的 朋友 ， 
以 及 他 们 朋友 的 朋友 号 上， 这 吏 是 接 下 来 诊断 所 有 人 的 最 佳 做 法 。 推 
测 出 来 的 诊断 结果 可 能 有 干扰 因素 ,但 关于 症状 如 何 与 流感 相关 联 的 
整体 统计 ， 与 只 有 几 个 诊断 结果 可 利用 相 比 ， 前 者 要 准确 和 完整 得 
多 。 孩 子 很 擅长 充分 利用 他 们 受到 的 分 散 式 监督 (只 要 不 选择 忽略 
它 ) ， 关 联 学 习 算 法 也 有 部 分 这 样 的 能 


然而 ， 这 种 力量 也 是 要 付出 代价 的 。 在 普通 分 类 万 中 ， 比 如 决策 
树 或 者 感知 强 ， 从 实体 的 属性 推断 出 其 类 别 ， 这 就 涉及 几 次 查找 工作 
和 一 些 计 算 。 在 一 个 网 络 中 ， 每 个 节点 的 类 别 间 接 取 决 于 所 有 其 他 市 
上 态 ， 而 我 们 不 可 以 孤立 地 对 其 进行 推断 。 我 们 可 以 求助 于 同样 用 于 贝 
叶 斯 网 络 的 推理 技术 ， 比 如 环 路 信念 传播 或 者 MCMC， 但 数值 范围 是 
不 一 样 的 。 典 型 的 贝 叶 斯 网 络 可 能 会 有 几 千 个 变量 ， 但 典型 的 社交 网 
络 却 有 数 百 万 个 节点 甚至 更 多 。 幸 运 的 是， 因为 网 络 模型 由 许多 有 相 


同 权 值 的 相同 特征 不 断 重 复 形成 ， 我 们 往往 可 以 将 网 络 压缩 变 成 “超市 
上 扩 ”， 每 个 超市 点 由 许多 市 点 组 成 。 我 们 知道 这 些 季 点 有 相同 的 概率 ， 
而 且 会 解决 许多 更 细小 的 问题 ， 结 采 也 完全 相同 。 


关联 学 习 有 悠久 的 历史 ， 其 历史 可 以 至 少 追 溯 到 20 世 纪 70 年 代 ， 
以 及 符号 学 派 技巧 《如 逆向 演绎 ) 。 但 随 着 互联 网 的 出 现 ， 它 需要 新 
的 动力 。 突 然 之 间 ， 网 络 变 得 无 处 不 在 ， 而 对 网 络 进 行 模仿 变 得 刻 不 
容 缓 。 我 发 现 有 一 个 特别 有 趣 的 现象 口碑 传播 。 信 息 如 何在 社交 
网 络 中 传播 ? 我 们 可 否 测量 每 个 成 员 的 影响 力 ， 然 后 将 目标 确定 在 数 
量 够 多 、 影 响 力 最 大 的 成 员 届 上 ， 以 开局 一 轮 口头 传播 ? 我 和 学 生 里 
特 . 理 得 条 一 起 设计 了 一 种 算法 区 能够 做 到 这 一 点 。 我 们 将 其 运用 到 
Epinions 网 页 (一 个 产品 评论 网 站 ) 上 ， 可 以 允许 成 员 说 出 他 们 信任 谁 
的 评论 。 研 究 发 现 之 一 是 ， 辐 单个 最 有 影响 力 的 成 员 营 销 产品 (该 成 
员 被 许多 拥护 者 的 信任 ， 而 这 些 拥护 者 也 被 自身 的 拥护 者 信任 等 ) 和 
对 1/3 的 所 有 成 员 进行 推销 相 比 ， 歼 果 是 一 样 的 。 随 之 而 来 的 是 一 大 批 
关于 此 问题 的 研究 。 此 后 ， 我 就 已 经 开始 将 关联 学 习 应 用 到 其 他 许多 
领域 ， 包 括 预测 谁 会 在 社交 网 络 中 形成 链接 、 整 合 数据 库 、 使 机 硕 人 
能 够 绘制 周围 环境 的 地 图 。 


如 条 你 想 了 解 世界 如 何 运 转 ， 那 么 关联 学 习 束 是 很 好 的 工具 。 在 
艾 了 杠 克 ' 阿 西 真 夫 的 《基地 》 一 书 中 ， 科 学 家 哈里 ' 谢 顿 可 以 从 数学 角度 
预测 人 类 的 未 来 ， 从 而 将 其 从 惨 落 中 拯救 出 来 。 此外， 保罗 : 克 鲁 格 曼 
也 承认 ， 束 是 这 个 诱 人 的 梦想 ， 让 他 成 为 一 名 经 济 学 家 。 依 据 谢 顿 的 
观点 ， 人 类 束 像 气体 中 的 分 子 ， 大 数 法 则 保证 ， 即 使 个 人 无 法 预测 ， 
整个 社会 却 可 以 。 关 联 学 习 表 明 事 实 并 非 如 此 ， 如 果 人 类 是 独立 的 ， 
每 个 人 孤立 地 做 决定 ， 社 会 的 确 丈 会 变 得 可 预测 ， 因 为 所 有 那些 随意 
的 决定 会 合计 为 一 个 相当 恒定 的 均值 。 但 当 人 们 互动 时 ， 较 大 的 集合 
体会 比较 小 的 集合 体 更 不 那么 可 预测 。 如 采信 心 和 怒 惯 可 以 传染 ， 
种 情绪 都 会 主导 一 段 时 间 ， 但 常常 整个 社会 会 从 这 种 情绪 转化 到 男 一 
种 情绪 。 虽 然 如 此 ， 并 不 是 所 有 请 妃 都 是 坏 的 。 如 采 我 们 可 以 估计 人 


们 之 间 相 互 影响 的 强度 ， 也 就 可 以 估计 这 种 转换 在 多 久之 后 会 发 生 ， 
即使 这 是 第 一 次 转换 。 换 个 说 法 ， 黑 天 鹅 并 不 一 定 不 可 预测 。 


对 于 大 数据 ， 抱 候 较 普 衣 的 就 是 拥有 的 数据 越 多 ， 束 越 容易 在 大 
数据 中 发 现 伪 模 式 。 如 采 数 据 仅仅 是 一 大 组 分 离 的 实体 ， 那 么 这 一 后 
可 能 正确 但 如 条 它们 相互 关联 ， 情 况 融 不 一 样 了 。 例 如 ， 那 些 利用 
数据 挖 据 来 隶 捕 妨 怖 分 子 的 批评 者 认为 ， 除了 伦理 问题 ， 这 绝 不 会 起 
作用 ， 因 为 无 率 的 人 太 多 ， 而 娩 饰 分 于 却 极 少 ， 因 此 它 要 么 会 引发 过 
多 的 错误 警报 ， 要 人 么 不 会 逮捕 任何 人 。 当 某 个 游客 或 者 恐怖 分 子 在 划 
定 焊 炸 地 点 的 范围 时 ， 有 人 对 纽约 市 政 厅 进 行 孙 像 了 吗 ? 购买 大 量 硝 
酸 猴 的 人 是 农民 还 是 爆炸 制造 者 ? 所 有 这 些 人 单独 看 都 很 元 率 ， 但 如 
果 “ 游 客 " 和 “农民 ”一 直 你 持 密 切 的 电话 联系 ， 而 后 者 只 是 开 着 他 的 拉 
登 皮 卡 进入 曼哈顿 ， 可 能 苹 时 候 需 要 一 个 人 来 采 紧 他 了 。 美 国 国家 安 
全 局 喜欢 搜寻 谁 给 谁 打 过 电话 的 记录 ， 这 不 仅仅 因为 可 以 说 这 是 合法 
的 ， 而 且 因为 对 于 预测 算法 来 说， 它们 往往 比 通话 内 容 的 信息 量 更 
大 ， 而 通话 内 容 需 要 人 进行 分 析 才 能 被 理解 。 


除了 社交 了 网络 ， 关 联 学 习 的 杀手 级 应 用 正在 了 解 活 细胞 如 何 运 
作 。 一 个 细胞 是 一 个 复杂 的 代谢 网 络 ， 在 这 个 过 程 中 ， 基 因为 蛋白 质 
编码 ， 蛋 日 质 又 调 世 其 他 基因 ， 还 有 一 长 串 的 化 学 反应 ， 而 产物 会 从 
这 个 细胞 器 运输 到 男 一 个 细胞 右 。 独 立 的 实体 ， 孤 立地 进行 工作 ， 找 
不 到 任何 踩 影 。 治 况 药 物 必须 在 不 干扰 正常 细胞 的 情况 下 ， 打 破 瘤 细 
胞 的 运转 。 如 果 我 们 有 两 者 准确 的 关联 模型 ， 束 可 以 在 计算 机 中 壬 试 
许多 不 同 的 药物 ， 让 模型 推断 它们 好 的 以 及 不 好 的 效果 ， 然 后 只 将 最 
好 的 留 下 ， 先 从 体外 ， 最 后 再 从 体内 进行 测试 。 


就 像 人 类 的 记忆 ， 关 联 学 习 编 织 了 一 个 丰富 的 关联 网 。 它 连接 认 
知 ， 诸 如 罗 比 之 类 的 机 器 人 可 以 通过 只 类 和 维 数 人 简约 来 获取 认 知 并 习 
得 技能 。 它 可 以 通过 强化 和 聚 类 来 学 习 ， 利 用 由 阅读 得 来 的 更 高 水 平 
的 知识 去 学 校 与 人 类 进行 互动 。 关 联 学 习 是 最 后 一 块 拼图 ， 也 是 我 们 


需要 为 目 己 的 炼金 术 提 供 的 最 后 的 原料 。 现 在 是 时 候 重 建 实验 宝 ， 使 
所 有 这 些 元 素 变 成 终极 算法 了 。 


第 九 章 
解 开 迷惑 


机 器 学 习 既 是 科学 ， 也 十 技术 ， 两 者 的 特点 提示 我 们 如 何 将 其 统 
一 起 来 。 在 科学 方面 ， 理 论 的 统一 往往 从 看 似 稍 单 的 观察 开始 。 两 个 
看 似 不 相关 的 现象 原来 只 是 同一 枚 硬币 的 两 面 ， 殉 像 第 一 张 倒 下 的 多 
米 诡 骨 牌 ， 会 引起 其 他 许多 牌 倒 下 。 平 果 落 到 地 上 ， 月 亮 巧 挂 在 夜 
空 ， 这 两 者 都 是 由 重力 引起 的 ， 而 且 〈 无 论 是 否 杜撰 ) 一 旦 牛顿 弄 明 
日 这 些 现 象 的 原因 ， 重 力 最 后 也 可 以 用 来 解释 潮汐 、 分 点 岁 莽 、 茵 星 
轨道 等 其 他 很 多 现象 。 在 日 党 体验 中 ， 电 和 磁 绝 不 会 同时 出 现 ， 这 边 
有 闪电 的 火花 ， 那 边 有 吸 住 铁 制 品 的 宕 石 ， 两 种 现象 都 很 少见 。 可 是 
一 旦 麦克 斯 韦 弄 清楚 电场 的 改变 会 产生 磁性 ， 反 之 亦 然 ， 显 然 内 电 是 
两 者 亲密 的 媒介 。 现 在 我 们 知道 ， 电 磁 并 不 罕见 ， 损 及 所 有 物质 。|] 
捷 列 夫 的 元 素 周 期 表 不 仅 将 所 有 已 知 物质 仅 分 成 两 个 维度 ， 也 预示 哪 
里 会 有 新 元 素 。 达 和 尔 文 在 贝 格 尔 号 上 的 观察 突然 得 到 理解 ， 因 为 马尔 
陕 斯 的 《人 口 论 》 表 明了 目 然 选 择 这 一 组 织 原 理 。 


当 克 里 克 和 沃 条 偶然 发 现 双 蝶 旋 结构 可 用 于 解释 DNA 令 人 迷惑 的 
属性 时 ， 他 们 马上 束 看 到 DNA 可 能 会 如 何 复制 目 身 ， 而 生物 学 由 “ 集 
邮 ”( 卢 瑟 福 用 的 屿 义 词 到 “统一 科学 ”的 过 渡 开 始 了 。 在 这 些 例子 
中 ， 各 种 各 样 令 人 眼花 综 乱 的 观察 结果 原来 都 有 同一 个 相同 的 起 因 ， 


而 一 旦 科学 家 们 明确 了 这 个 起 因 ， 殊 可 以 反 过 来 利用 它 来 预测 许多 新 
的 现象 。 同 样 的 道理 ， 虽 然 我 们 在 本 书 中 见 到 的 学 习 算 法 似乎 差别 很 
大 一 一 有 些 以 大 脑 为 基础 ， 有 些 以 进化 为 基础 ， 有 些 则 以 抽象 的 数学 
原理 为 基础 ， 但 实际 上 ， 它 们 有 很 多 相似 之 处 ， 而 由 学 习 产 生 的 理论 
会 有 许多 新 的 观点 。 


虽然 知道 这 一 点 的 人 比较 少 ， 但 世界 上 许多 最 重要 的 技术 都 是 创 
造 统一 物 的 结果 ， 该 统一 物 是 单一 机 制 ， 能 完成 之 前 需要 很 多 机 制 完 
成 的 事情 。 互 联网 ， 正 如 它 的 名 字 一 样 ， 是 连接 相互 网 络 的 一 种 网 
络 。 没 有 它 ， 每 种 类 型 的 网 络 就 得 需要 一 个 不 同 的 协议 来 与 其 他 每 个 
网 络 进行 对 话 ， 这 驶 很 像 对 于 世界 上 每 种 不 一 样 的 语言 都 需要 一 本 不 
一 样 的 字典 。 互 联网 协议 就 是 一 种 世界 语言 ， 会 给 每 台 计 算 机 能 与 其 
他 所 有 计算 机 直接 对 话 的 错觉 ， 世 界 语言 还 允许 电子 邮件 和 网 页 忽视 
那些 它们 无 法 起 到 影响 作用 的 基础 设施 建设 的 细节 。 关 系数 据 库 也 会 
对 企业 应 用 做 类 似 的 事情 ， 人 允许 开发 商 和 用 户 依据 抽象 关联 模型 进行 
思考 ， 并 忽略 关于 回应 搜寻 计算 机 所 壬 试 的 方式 。 微 处 理 器 是 一 种 数 
据 电 子 元 件 装 配 ， 可 以 对 所 有 其 他 装配 进行 模仿 。 虚 拟 机 允许 同一 台 
计算 机 同时 在 100 个 人 面前 伪装 成 100 台 不 同 的 计算 机 ， 并 使 云 成 为 可 
能 。 图 形 用 户 界面 让 我 们 编辑 文件 、 数 据 表 、 约 灯 片 以 及 别 的 很 多 东 
西 ， 利 用 Windows 操 作 系 统 、 采 单 、 鼠 标 单 击 的 通用 语言 。 计 算 机 本 
身 就 是 统一 物 ， 单个 设备 可 解决 任何 逻辑 或 者 数学 问题 ， 只 要 我 们 知 
道 如 何 对 它 进 行 编程 。 甚 至 电 也 是 一 种 统一 物 : 你 可 以 通过 许多 不 同 
的 来 源 来 获取 它 一 一 煤 、 天 然 气 、 核 能 、 水 力 、 风 力 、 太 阳 ， 然 后 以 
无 限 多 种 的 方式 来 消耗 它 。 一 座 发 电站 不 会 知道 或 者 关心 它 生 产 的 电 
会 如 何 被 消耗 掉 ， 而 你 的 门廊 灯 、 洗 硫 机 或 者 全 新 的 特 斯 拉 也 不 会 在 
意 电 力 供应 来 自 哪里 。 电 力 就 是 能 源 的 世界 语言 。 终 极 算 法 是 机 器 学 
习 的 统一 物 : 它 让 任意 应 用 利用 任意 学 习 算 法 ， 方 法 是 将 学 习 算法 概 
括 成 通用 形式 一 所 有 应 用 都 需要 知道 该 形式 。 


我 们 迈 问 终极 算法 的 第 一 步 会 简单 得 令 人 意外 。 事 实证 明 ， 要 将 
许多 不 同 的 学 习 算法 结合 成 一 个 并 不 难 ， 利 用 的 就 是 元 学 习 。 网 飞 公 
司 、 沃 森 、Kinect 以 及 其 他 无 数 公司 都 会 利用 它 ， 而 它 在 机 器 学 习 算 
法 的 箭 袋 中 也 十 最 有 力量 的 一 文 。 它 还 是 接 下 来 要 进入 的 深层 次 统一 
的 扑 脚 石 。 


万 里 挑 一 


这 里 有 一 个 挑战 ， 你 有 15 分 钟 用 来 联合 决策 树 、 多 层 感 知 右 、 分 
类 器 系 统 、 村 素 贝 叶 斯 ， 以 及 文 持 同 量 机 ， 使 其 变 成 拥有 每 个 部 分 最 
佳 属性 的 单一 算法 。 快 ! 你 能 做 什么 ? 显然 ， 这 不 能 涉及 单个 算法 的 
细节 。 没 有 时 间 了 ， 但 接 下 来 怎么 办 ? 把 每 种 学 习 算 法 当成 委员 会 
的 一 位 专家 ， 每 个 人 都 仔细 观察 待 分 类 的 实例 一 一 这 个 患者 的 诊断 是 
什么 ， 然 后 有 把 握 地 做 出 预测 。 你 不 是 一 位 专家 ， 却 是 委员 会 主席 ， 
你 的 工作 就 古 把 他 们 的 意见 结合 成 一 个 最 终 决 定 。 你 手 上 的 问题 其 实 
束 是 一 个 新 的 分 类 问题 ， 这 种 情况 下 ， 输 入 不 古 患 者 的 症状 ， 而 是 专 
家 的 观点 。 但 你 可 以 将 机 器 学 习 以 同 样 的 方式 运用 到 解决 这 个 问题 
上 ， 专 家 也 会 这 样 将 其 运用 到 最 初 的 问题 上 。 我 们 可 以 称 其 为 元 学 
习 ， 因 为 它 就 是 要 了 解 学 习 算 法 。 元 学 习 算 法 本 身 可 以 是 任意 学 习 算 
法 ， 从 决策 树 到 简单 的 权 值 投票 。 为 了 掌握 权 值 或 者 决策 树 ， 我 们 利 
用 学 习 算 法 的 预测 来 代 蔡 每 个 最 初 例子 的 属性 。 经 营 能 够 准确 预测 类 
别 的 学 习 算 法 会 取得 较 高 的 权 值 ， 而 不 准确 的 那些 则 容易 被 忽略 。 有 
了 决策 树 ， 是 否 要 利用 学 习 算 法 可 能 会 依照 其 他 学 习 算 法 的 预测 来 
定 。 不 管 怎 样 ， 为 了 给 既定 训练 例子 获取 学 习 算 法 的 预测 ， 我 们 首先 
必须 将 其 运用 到 原始 训练 集 “ 排 除 该 样本 ”中 ， 然 后 利用 最 终 的 分 类 
右 ， 耕 则 委员 会 就 有 被 拟 合 学 习 算 法 控制 的 风险 ， 因 为 它们 可 以 通过 
记忆 类 别 来 预测 准确 的 类 别 。 网 飞 奖 获得 者 利用 元 学 习 来 结合 数 百 个 


不 同 的 学 习 算 法 ， 沃 森 利 用 它 来 从 备 选项 中 选择 最 终 的 答案 ， 内 特 : 布 
处 也 以 相似 的 方式 将 投票 与 预测 选举 结果 结合 起 来 。 


这 种 类 型 的 元 学 习 被 称 为 “ 堆 琶 ”， 征 大 卫 : 添 尔 班 特 的 创见 ， 在 第 
三 章 中 我 们 提 到 过 他 ， 他 走 “ 天 下 没有 免费 的 午餐 ?定理 的 创造 者 。 还 
有 一 个 更 简单 的 元 学 习 算 法 是 “ 装 袋 "算法 ， 由 统计 学 家 里 奥 . 布 雷 曼 发 
明 。“ 沪 袋 ” 算 法 通过 重新 取样 的 方法 来 产生 训练 集 的 随机 变量 ， 将 同 
样 的 学 习 算 法 应 用 到 每 个 训练 集中 ， 然 后 通过 投票 将 结果 结合 起 来 。 
做 这 件 事 的 原因 是 它 可 以 减少 变量 : 组 合 模型 和 任何 单一 模型 相 比 ， 
对 于 变幻 莫 测 的 数据 的 敏感 度 要 低 得 多 ， 这 样 提高 准确 度 忠 变 得 很 容 
易 了 。 如 果 模 型 是 决策 树 ， 且 我 们 通过 保留 属性 (这 些 属性 因 考 虑 每 
个 节点 而 得 来 ) 的 任意 子 集 来 进一步 改变 这 些 决策 树 ， 那 么 所 得 结果 
号 是 所 请 的 随机 森林 。 随 机 和 森林 到 处 是 一 些 准确 的 分 类 器 。 人 微软 公司 
的 Kinect 利 用 它们 来 弄 清 到 你 在 做 什么 ， 而 且 它们 会 经 闻 在 机 只 学 习 
比赛 中 获胜 。 


最 聪明 的 元 学 习 算 法 之 一 束 古 推进 ， 由 两 位 学 习 领 域 的 理论 家 约 
阿 夫 . 弗 罗 因 德 和 罗 们 : 夏 皮 尔 创 造 。 推 进 算法 不 是 通过 结合 不 同 的 学 习 
算法 ， 而 征 将 相同 的 分 类 大 不 断 应 用 到 数据 中 ， 利 用 每 个 新 的 模型 来 
纠正 前 面 模型 的 错误 。 它 通过 将 权 值 分 布 给 训练 实例 的 方式 来 完成 这 
件 事 。 每 个 被 误 分 类 的 权 值 ， 在 每 轮 学 习 过 后 都 会 增长 ， 使 得 后 面 的 
几 轮 会 更 癌 它 集中 。 推 进 算法 的 名 字源 于 这 样 的 想法 : 该 过 程 可 以 推 
进 只 比 随 机 猜测 好 一 总 的 分 类 各， 但 如 果 持 续 如 此 ， 吏 会 接近 完美 。 


元 学 习 非 常 成 功 ， 但 它 却 不 古 深入 组 合 模 型 的 方法 。 男 外 ， 它 也 
昂贵 、 苟 刻 ， 因 为 会 做 很 多 轮 学 习 ， 而 且 组 合 模型 可 能 会 很 难 懂 (“我 
认为 你 有 前 列 腺 癌 ， 因 为 决策 树 、 遗 传 算法 、 朴 素 贝 叶 斯 算法 都 这 么 
判断 ， 昌 然 多 层 感 知 器 和 文 持 向 量 机 反对 ”) 。 此 外 ， 所 有 的 组 合 模型 
确实 只 是 一 个 巨大 而 姿 乱 的 模型 。 难 道 我 们 不 能 找到 完成 同样 任务 的 
单一 学 习 算 法 吗 ? 当然 可 以 。 


终极 算法 之 城 


我 们 的 统一 学 习 算 法 也 许 通过 延伸 离 言 可 以 得 到 最 好 的 介绍 。 如 
果 机 器 学 习 是 一 块 大 陆 ， 被 分 成 5 个 区 域 ， 那 么 终极 算法 束 古 百 都 城 
市 ， 蕊 立 在 5 个 区 域 会 合 的 特殊 地 融 。 如 果 从 远 处 接近 它 ， 你 会 看 到 这 
个 城市 由 3 个 同心 圆 组 成 ， 每 个 圆 被 一 堵 墙 围 着 。 外 围 的 贺 ， 也 古 最 蚁 
的 圆 是 “优化 城 ”。 这 里 的 每 个 房间 束 是 一 种 算法 ， 而 且 它们 有 不 同 的 
形状 和 面积 。 有些 房 子 在 建设 中 ， 当 地 人 人 忙 着 围 着 它 团 团 转 :有些 房 
子 非常 革新， 有 些 房 子 则 看 起 来 老 旧 索 废 。 山 的 更 高 处 是 “评价 城 
堡 ”"”， 命 令 不 断 从 它 的 大 厦 和 喇 砍 向 下 面 的 算法 发 出 。 最 重要 的 是 ,在 
天 空 的 映衬 下 , “代表 法 之 塔 ” 硬 然而 立 ， 这 里 住 着 城市 的 统治 者 。 他 
们 的 城市 有 不 可 改变 的 法 律 ， 不 仅 规定 在 城市 范围 内 ， 而 且 规定 了 在 
整个 大 陆 什 么 能 做 、 什 么 不 能 做 。 在 中 央 ， 最 高 的 塔 尖 蒜 扬 着 终极 滤 
法 的 旗帜 ， 颜 色 是 红 和 黑 ， 上 面 的 五 角 星 围 着 我 们 无 法 理解 的 文字 。 


这 座 城 市 被 分 成 5 个 区 域 ， 一 个 区 域 属于 一 个 学 派 。 每 个 区 域 

从 “代表 法 之 塔 ”" 一 直 延 伸 至 城市 的 外 墙 ， 包围 了 塔 、“ 评 价 城堡 "里 的 

一 群 襄 磺 ， 以 及 它们 俯 隔 的 “优化 城 ” 的 街道 和 房屋 。 这 5 个 区 域 和 3 个 

圆圈 将 城市 划分 成 15 个 区 域 、5 种 形状 ， 以 及 你 需要 解决 的 那 15 块 拼图 
(网 图 9-1) 。 


符号 学 派 


类 舱 


43 
2 人 


» 


图 9-1 


结合 起 来 的 ， 且 只 分 成 3 个 区 域 : 终 
极 算法 的 代表 方法 、 评 价 、 优 化 部 分 。 每 种 学 习 算 法 都 有 这 3 个 部 分 ， 
但 不 同学 派 也 会 有 不 同 的 组 成 部 分 


你 专注 地 有 盯 着 地 图 ， 试 图 解 开 人 它 的 谜 克 。15 块 拼图 都 很 完美 地 拼 
在 一 起 ， 但 你 得 弄 清楚 它们 十 如 何 


代表 法 是 一 种 形式 语言 ， 利 用 这 种 语言 
型 。 符 号 学 派 的 形式 语言 是 i 


本 站 十 你 


学 习 算法 会 表达 它 的 模 
辑 ， 其 中 规则 和 决策 树 是 特殊 例子 。 联 
结 学 派 的 钙 网 络 神 经 。 进 化 学 派 的 是 遗传 程序 ， 包 括 分 类 器 系统 


。 贝 


叶 斯 学 派 的 是 图 解 模型 ， 这 是 贝 叶 斯 网 络 筷 尔 可 夫 网 络 的 泣 盖 性 林 
语 。 类 推 学 派 的 是 特例 ， 可 能 会 有 权 值 ， 丈 像 在 文 持 同 量 机 中 那样 。 


进化 学 派 的 主要 部 分 是 评分 函数 ， 判 断 一 个 模型 的 优 务 程 度 。 符 
号 学 派 用 的 古 准 确 度 或 者 信息 增益 。 联 结 学 派 利 用 的 古 连 续 误 差 测 
量 ， 例 如 ， 平 方 误 差 ， 这 古 预 期 值 与 真实 值 之 间 差 异 的 平方 的 总 和 。 
贝 叶 斯 学 派 利 用 的 是 后 验 概率 。 类 推 学 派 (至 少 是 支持 向 量 机 这 种 类 
型 ) 利用 的 是 边界 。 除 了 模型 与 数据 的 匹配 度 ， 所 有 的 学 派 都 会 考虑 
其 他 合意 的 属性 ， 例 如 模型 的 简洁 度 。 


优化 是 一 种 算法 ， 即 寻找 最 高 得 分 的 模型 ， 并 回归 它 。 符 号 学 铂 
的 特色 搜索 算法 是 逆 疝 党 缂 。 联 结 学 派 的 是 梯度 下 降 。 进 化 学 派 的 古 
遗传 搜索 ， 包 括 交 义 和 突 变 。 贝 叶 斯 学 派 在 这 方面 不 同 寻 常 ， 他 们 不 
只 是 寻找 最 好 的 模型 ， 而 十 寻找 所 有 模型 的 平均 值 ， 由 它们 的 可 能 程 
度 来 权衡 。 为 了 有 效 进行 加 权 ， 他 们 利用 诸如 MCMC 之 类 的 推理 算 
法 。 类 推 学 派 (或 者 更 准确 地 说 是 支持 向 量 机 ) 利用 约束 优化 来 找到 
最 佳 模型 。 


经 过 一 天 的 跋涉 之 后 ， 太 阳 快 速 接 近 地 平 线 ， 而 你 要 在 天 涯 前 加 
快速 度 。 城 市 的 外 围 增 有 5 个 大 门 ， 每 个 门 由 一 个 学 派 稳 控 ， 并 通 往 每 
个 学 派 在 “优化 城 * 里 的 区 域 。 对 着 防 护 装 和 置 念 出 “深度 学 习 ” 的 口令 之 
后 ， 我 们 进入 “梯度 下 降 大 1 门 ”*"， 并 旋转 进入 “代表 法 之 塔 *。 大 街 从 门 
口 处 突然 沿 着 山坡 上 升 ， 一 直 延 伸 到 城堡 的 * 乎 方 误 兰 大 门 ”， 但 你 却 
要 回 左 转 回 进化 区 域 。 梯 度 下 降 区 域 的 房子 都 是 平滑 曲线 以 及 密切 区 
织 在 一 起 的 模式 ， 看 起 来 几乎 更 像 一 个 从 林 ， 而 不 是 一 座 城市 。 但 当 
梯度 下 降 届 服 于 遗传 搜索 时 ， 人 情况 束 会 急剧 变化 。 到 这 里 时 ， 房 屋 会 
升 得 更 高 ， 一 层 结构 堆 在 为 一 层 之 上 ， 但 这 些 结构 稀少 ， 几 乎 没有 ， 
似乎 等 看 由 梯度 下 降 的 曲线 来 填 满 。 束 是 这 样 : 结合 两 者 的 方法 束 是 
利用 遗传 搜索 来 找到 模型 的 结构 ， 然 后 让 梯度 下 降 来 填 满 它 的 参数 。 


这 束 是 目 然 所 做 的 事 : 进化 创造 大 脑 结构 ， 而 个 人 经 历 则 对 这 些 结构 
进行 调整 。 


第 一 步 完 成 了 ， 你 急忙 赶 往 贝 叶 斯 区 域 。 即 使 在 远 处 ， 你 也 可 以 
看 到 它 如 何 族 拥 厦 “ 贝 叶 斯 定理 大 教堂 ”"，“MCMC 小 车 ”一 路 晓 蜂 曲 
折 。 这 个 过 程 需要 一 段 时 间 。 你 抄 近 道 走 上 “置信 传播 街道 "， 但 似乎 
开水 远 在 绕 圈 循环， 然后 你 看 到 它 了 一 一 “最 可 能 大 道 ” 同 着 “后 验 概率 
大 1 门 ”傲然 忆 并 。 不 用 对 所 有 模型 求 均值 ， 你 可 以 直接 奔 向 最 适合 的 那 
个 ， 并 相信 最 终 的 预测 会 几乎 一 样 。 而 你 可 以 让 基因 搜索 选择 模型 的 
结构 和 梯度 下 降 作为 其 参数 。 轻 轻松 了 一 口气 ， 你 意识 到 这 融 是 你 需 
要 的 所 有 概率 推理 ， 至 少 持续 到 开始 利用 模型 回答 问题 的 时 候 。 


你 不 断 向 前 走 。 约 束 优化 区 域 是 窄 巷 和 死胡同 组 成 的 迷宫 ， 各 种 
各 样 的 例子 到 处 紧 控 ， 侦 尔 会 对 文 持 向 量 的 周围 进行 清理 。 显 然 ， 为 
了 避免 遇 到 错误 类 别 的 例子 ， 你 要 做 的 整 是 将 限制 条 件 添 加 到 已 经 聚 
合 的 优化 控制 器 中 。 但 回头 想 想 ， 这 并 不 一 定 有 必要 。 现 在 想起 来 
了 ， 长 至 这 也 没 必 要 。 当 我 们 学 习 文 持 问 量 机 时 ， 为 了 避免 过 拟 合 ， 
已 经 让 边际 受到 侵犯 ,只 要 每 次 违反 束 会 受到 惩 昼 。 在 这 种 情况 下 ， 
优化 例子 权 值 可 以 再 次 通过 梯度 降低 的 形式 来 确定 。 这 很 容易 ， 你 觉 
得 目 己 开始 对 它 有 所 了 解 了 。 


实例 稠密 的 排名 突然 中 断 ， 你 发 现 自己 在 逆向 演绎 区 域 ， 这 里 有 
宽阔 的 大 街 和 古代 的 石 尖 建筑 。 这 里 的 建筑 是 几何 学 的 、 朴 素 的 ， 由 
直线 和 直角 组 成 。 即 使 经 过 很 大 程度 修 瘟 的 树 有 和 矩形 的 树干 ， 但 它们 
的 叶子 被 细致 地 贴 上 预测 的 类 别 。 该 区 域 的 居民 似乎 用 特殊 的 方式 在 
建造 他 们 的 房子 : 他 们 从 屋顶 开始 ， 将 屋顶 标识 为 “结果 ”， 并 渐渐 地 
将 天 人 花 板 与 地 板 之 间 的 空 阶 填 补 ， 他 们 将 地 板 标 识 为 “前 提 ”。 一 个 接 
一 个 地 ， 他 们 找到 一 块 恰好 与 某 个 空隙 吻合 的 石头 ， 然 后 将 其 移 到 合 
适 的 位 置 。 但 你 注意 到 ， 许 多 空 除 有 同样 的 形状 ， 而 在 这 些 石头 形成 
该 形状 之 前 ， 切 割 并 整合 石头 也 许 会 更 快 ， 然 后 尽 可 能 多 地 上 果 住 客 


人 。 换 句 话 说 ， 你 可 以 利用 遗传 搜索 来 进行 逆向 演绎 。 巧 妙 ! 你 似乎 
已 经 将 那 5 个 优化 程序 总 结 为 一 个 简单 的 方法 : 遗传 搜索 用 于 结构 ， 而 
梯度 下 降 用 于 参数 。 即 使 那样 也 可 能 过 分 了 。 对 于 很 多 问题 ， 如 采 你 
做 3 件 事 ， 可 以 将 遗传 搜索 简化 为 肘 山 法 一 一 省 去 交叉 ， 在 每 一 代 中 答 
试 所 有 可 能 的 点 突变 ， 并 一 直选 择 单个 最 优 假设 来 为 下 一 代 播 种 。 


头顶 的 雕像 是 什么 ? 亚 里 士 多 德 。 他 不 以 为 然 地 看 着 那 1/4 樟 度 下 
降 混 乱 地 纠缠 在 一 起 。 你 已 经 充分 进行 循环 ， 拥 有 了 为 得 到 终极 算法 
而 需要 的 统一 优化 侨 ， 但 来 不 及 庆祝 一 下 ， 夜 幕 降临 了 ， 你 要 做 的 还 
有 很 多 。 通 过 壮观 但 相当 狭窄 的 “准确 度 之 门 "”， 你 进入 “评价 城堡 ”。 
1 上 的 铭文 写 厦 :“ 涩 等 进入 此 地 ， 须 弃 绝 过 拟 合 之 希望 。” 随 看 你 循 
环 经 过 5 个 学 派 鉴 别 器 的 宫殿 ， 在 心理 上 将 每 个 部 分 归 位 。 为 了 连续 性 
预测 ， 你 利用 准确 度 来 评价 “是 ”或 “ 否 ” 预 测 以 及 平方 误 侄 。 适 应 度 只 
征 进 化 学 派 用 来 指 代 评 分 画 数 的 名 字 ， 你 可 以 将 它 当 作 你 想到 的 一 
切 ， 包 括 准 确 度 和 平方 座 差 。 如 琳 你 忽略 先 验 概率 ， 而 且 误 蕾 遵 循 正 
人 态 分 布 ， 那么 后 验 概 率 会 简化 为 平方 误 侄 。 如 果 你 允许 它 因 为 价格 而 
受到 违反 ， 边 际 束 会 变 成 准确 度 更 加 柔软 的 版 本 一 一 对 于 准确 的 预测 
不 是 不 进行 惩 加 ， 对 于 不 准确 的 预测 则 基于 惩 四 ， 息 昼 一 直 等 于 零 ， 
直到 你 进入 边际 ， 这 时 它 开 始 乎 稳 增 长 。 哟 ! 结合 鉴别 器 比 结合 优化 
化 要 简单 得 多 ， 但 “代表 法 之 塔 ? 落 停 在 你 上 至 ， 给 你 一 种 不 祥 的 预 


你 进入 搜寻 的 最 后 阶段 ， 打 开 * 文 持 癌 量 之 塔 ?的 门 ， 一 位 看 起 来 
面目 钴 铬 的 警卫 打开 它 ， 你 突然 意识 到 目 己 看 不 到 密码 。“ 核 心 。” 你 
脱口 而 出 ， 努 力 使 声音 不 显得 丝 晕 慨 张 。 警 卫 鞠 身 然 后 避 开 。 重 新 获 
得 士气 后 ， 你 走 进去 了 ， 并 会 因为 目 己 的 粗心 而 踢 目 己 一 脚 。 塔 的 第 
一 层 古 装修 肾 华 的 环形 室 ， 还 有 似乎 为 支持 同 量 机 的 大 理 石 表 达 法 占 
据 中 心 的 重要 位 置 。 当 你 在 它 周转 走时， 注意 到 远 的 那 边 有 一 个 门 ， 
它 一 定 能 够 通过 中 心 搭 一 一 “终极 算法 之 塔 ?。 门 口 似乎 没有 警卫 ， 你 
打算 抄 近 道 ， 悄 悄 溜 过 门廊 ， 走 到 一 条 不 长 的 走廊 ， 发 现 目 己 置 吴 在 


一 间 更 大 的 五 角 房 屋 中 ， 每 墙 墙 上 都 有 一 局 门 。 在 中 心 ， 一 个 曼 旋 状 
的 楼 樟 上 升 至 你 可 以 看 到 的 位 置 。 你 听 到 上 面 的 声音 ， 然 后 因 进 对 面 
的 门 里 。 这 个 门 通 往 “神经 网 络 之 塔 *。 你 再 一 次 进入 环形 的 房间 ， 这 
个 房间 的 中 心 有 一 个 多 层 感 知 右 作为 狠 饰 品 ， 它 的 组 成 部 分 和 文 持 癌 
量 机 不 一 样 ， 但 布局 十 分 相似 。 你 突然 发 现 ， 支 持 疝 量 机 只 是 一 个 这 
样 的 多 层 感 知 硕 : 有 一 个 由 内 核 而 不 是 S 曲 线 组 成 的 隐藏 层 ， 还 有 一 条 
输出 信息 ， 是 一 个 线性 组 合 ， 而 不 是 另外 一 条 S 形 曲线 。 


难道 说 别 的 表示 方法 也 有 相似 的 形式 ? 越 来 越 觉得 刺激 。 你 罕 过 
五 角 星 房屋 ， 跑 回 “ 逻 辑 之 塔 ?。 看 着 中 心 一 组 规则 的 描述 ， 你 弃 着 辩 
别 一 个 模式 。 征 的 ! 每 条 规则 只 是 一 个 高 度 程式 化 的 神经 元 。 例 如 ， 
如 采 规 则 是 “一 只 巨大 的 讨 行 动物 ， 然 后 会 喷 火 ， 那 么 它 吏 是 一 条 
龙 ”， 对 于 “ 它 是 一 只 巨大 的 疏 行 动物 ”和 “ 顺 火 "以 及 门槛 值 1.5 来 说 ， 仅 
仅 和 是 权 值 为 1 的 感知 锅 。 一 组 规则 集束 是 一 个 有 隐藏 层 的 多 层 感知 郁 ， 
包含 每 条 规则 的 每 个 神经 元 ， 以 及 形成 规则 的 稀缺 的 输出 神经 元 。 在 
脑海 深 处 有 一 个 疑问 ， 但 你 现在 没有 时 间 解 决 它 。 当 你 罕 过 五 角 房 屋 
走 到 “遗传 程序 之 塔 * 时 ， 就 已 经 可 以 看 到 如 何 对 它们 进行 合并 。 遗 传 
程序 也 只 是 程序 ， 而 程序 只 钙 逻 辑 构 造 。 房 屋 中 遗传 程序 的 雕塑 是 树 
的 形状 ， 子 程序 会 分 成 更 多 的 子 程序 ， 当 你 仔细 看 叶子 时 ， 会 发 现 它 
们 只 是 简单 的 规则 。 因 此 程序 归结 为 规则 ， 而 且 如 果 规 则 可 以 位 化 为 
神经 元 ， 那 么 程序 也 可 以 。 


不 幸 的 是 ， 在 “图 解 模型 之 塔 ” 的 顶部 ， 环 形 房 屋内 的 雕像 与 其 他 
的 看 起 来 大 不 一 样 。 图 解 模 型 是 各 种 因素 的 一 个 产物 : 条 件 概率 (在 
贝 叶 斯 网 络 条 件 下 ) 以 及 状态 的 非 负 画 数 〈 在 马尔 科 夫 网 络 条 件 
下 ) 。 尽 管 很 努力 ， 你 就 是 看 不 到 神经 网 络 或 者 规则 集 之 间 的 连接 ， 
失望 向 你 侵袭 而 来 。 不 过 你 义 戴 上 “ 护 目 镜 "， 其 算法 可 以 代 巷 每 个 函 
数 。 有 了 ! 此 时 各 种 因素 的 产物 就 古 术 语 的 总 和 ， 束 像 一 个 文 持 癌 量 
机 、 一 个 投票 规则 集 或 者 一 个 多 层 文 持 回 量 机 ， 没 有 输出 S 形 曲线 。 例 
如 ， 你 可 以 将 一 个 朴素 贝 叶 斯 龙 分 类 亏 解 释 成 一 个 感知 句 ， 对 于 “ 顺 


火 ”， 它 的 权 值 等 于 P ( 喷 火 | 龙 ) 的 log 值 减 去 P ( 喷 火 | 不 是 龙 ) 的 log 
值 。 当 然 ， 图 解 模 型 比 这 个 还 要 概括 ， 因 为 它们 可 以 代表 许多 变量 的 
概率 分 布 ， 而 不 仅仅 是 给 定 其 他 变量 (属性 ) 情况 下 的 一 个 变量 (类 
别 ) 分 布 。 


你 做 到 了 ! 还 有 疑问 ? 吸收 文 持 癌 量 机 变 成 神经 网 络 ， 吸 收 神经 
网 络 变 成 图 解 模 型 起 作用 了 。 那 么 一 定 要 吸收 遗传 程序 变 成 逻辑 。 
但 将 逻辑 和 图 解 模 型 结合 在 一 起 ?此 处 有 一 点 差错 。 你 终于 看 到 问题 
所 在 : 逻辑 有 一 个 维度 ， 而 图 解 模型 没有 ， 反 过 来 也 一 样 。 五 个 房屋 
中 的 膨 塑 匹配 是 因为 它们 是 简单 的 离 言 ， 但 事实 并 非 如 此 。 图 解 模 型 
不 会 让 我 们 表示 规则 时 涉及 的 对 象 超过 一 项 ， 就 像 “ 朋 友 的 朋友 是 朋 
友 ”， 它 们 所 有 的 变量 必须 十 来 日 同一 对 象 的 属性 。 它 们 也 不 能 代表 任 
意 程序 ， 因 为 这 些 程 序 会 通过 一 组 组 通过 来 自 这 个 和 那个 子 集 的 变 
量 。 逻 辑 可 以 轻易 做 到 这 些 事 ， 但 它 无 法 代表 不 确定 、 模 糊 或 者 相似 
度 。 而 且 如 果 没 有 一 种 能 做 所 有 这 些 事 的 表示 方法 ， 殊 3 无 法 获得 通用 
学 习 算 法 。 


你 绞 尽 脑 计 想 办 法 ， 但 你 越 努 力 ， 问 题 区 ® 变 得 越 束 手 。 也 许 将 逻 
辑 和 概率 统一 起 来 超出 了 人 类 的 能 力 。 筋 疲 力 尽 的 你 渐渐 入 睡 。 突 
然 ， 一声 低沉 的 吃 叫 把 你 吵 醒 了 。 一 只 多 头 复 洒 怪 物 扑 问 你 ， 张 牙 舞 
爪 ， 你 在 最 后 一 刻 畴 开 了 “。 你 用 学 习 这 把 剑 独 击 怪物 ， 这 是 唯一 能 杀 
死 怪物 的 武 融 ， 最 后 你 说 了 ， 把 它 所 有 的 头 砍 了 下 来 。 趁 它 还 没 长 出 
新 的 头 ， 你 跑 上 了 楼 。 


艰难 地 擎 爬 之 后 ， 你 到 达 楼 顶 。 此 时 有 一 场 婚 礼 正在 进行 。 班 茉 
尔 迪 卡 特 斯 (Praedicatus， 逻 辑 领 域 的 大 臣 、 象 征 界 的 统治 者 以 及 程 
序 的 保护 神 ) 对 马尔 科 维 雅 (Markovia， 概 率领 域 的 公主 、 网 络 界 的 
女皇 ) 说 :“ 让 我 们 把 所 有 领域 都 统一 起 来 ， 你 应 当 往 我 的 规则 添加 权 
值 ， 以 产生 新 的 代表 方法 ， 可 以 进行 广泛 传播 。” 王 于 说 :“ 我 们 把 我 
们 的 一 个 个 后 代称 作 马 尔 科 夫 逻辑 网 络 。” 


你 的 头 有 些 尝 。 你 走 到 阳台 外 ， 太 阳 已 经 在 城市 上 空 升 起 。 你 的 
目光 从 屋顶 投 癌 广阔 的 乡村 。 有 服务器 之 林 回 各 个 方 回 延伸 ， 发 出 很 低 
的 喻 喻 声 ， 等 竺 终极 算法 的 到 来 。 护 卫 沿 看 道路 移动 ， 从 数据 宝藏 中 
取出 金子 。 西 边 很 远 的 地 方 ， 土 地 被 信息 之 海 占 据 ， 散 布 着 船只 。 你 
抬头 看 终极 算法 的 弃 帜 ， 现 在 可 以 清晰 地 看 到 在 五 角 星 中 的 铭文 : 
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你 想 知 道 这 到 悦 有 什么 舍 义 。 


马尔 科 夫 逻辑 网 络 


2003 年 ， 我 开始 思考 如 何 将 逻辑 和 概率 统一 起 来 ， 我 的 学 生 马 特 : 
理 查 森 也 加 入 进来 。 一 开始 我 们 进展 甚 微 ， 因 为 我 们 正 试图 利用 贝 叶 
斯 网 络 来 完成 这 件 事 ， 而 它们 的 固定 形式 一 一 变量 的 严格 顺序 、 依 据 
父母 对 孩子 进行 的 有 条 件 分 布 一 一 与 逻辑 的 灵活 性 不 相 容 。 但 在 平安 
夜 的 前 一 天 ， 我 意识 到 有 一 个 好 很 多 的 办 法 。 如 采 我 们 切换 到 马尔 科 
夫 网 络 ， 可 以 利用 任何 逻辑 公式 作为 马尔 科 夫 网 络 特征 的 模板 ， 这 样 
忠 可 以 把 逻辑 和 图 解 模型 统一 起 来 了 。 看 看 我 们 怎么 做 到 的 。 


回想 一 下 ， 马 尔 科 夫 网 络 是 由 特征 的 加 权 和 来 定义 的 ， 这 一 点 很 
像 感知 器 。 假 设 我 们 有 一 些 人 类 的 图 片 ， 随 机 拿 起 一 张 ， 然 后 依据 它 
的 特征 来 算出 概率 ， 例 如 , “这 个 人 有 日 头发 ”\“ 这 个 人 年 纪 大 
了 ”、“ 这 个 人 古 一 个 妇女 ”等 。 在 感知 器 中 ， 我 们 利用 一 个 门框 值 来 使 
这 些 特征 的 加 权 和 通过 ， 以 决定 比如 ， 这 个 人 是 不 是 你 的 祖母 。 在 马 
尔 科 夫 网 络 中 ， 我 们 会 做 一 点 不 一 样 的 事 (至 少 乍 一 看 是 这 样 的 ) : 
我 们 对 加 权 和 进行 指数 化 ， 将 其 变 成 因素 的 一 个 产物 ， 而 且 该 产物 是 
从 这 批 图 片 中 迁 定 某 张 指 定 照 片 的 概率 ， 不 管 你 的 依 母 在 不 在 这 张 照 
片 里 。 如 采 你 有 许多 老年 人 的 照片 ， 那 么 特征 的 权 值 下 会 上 升 ， 如 采 


他 们 中 的 多 数 人 都 是 男人 ， 那 么 “这 个 人 是 一 个 妇女 ”的 权 值 器 会 下 
降 。 特 征 可 以 是 我 们 想 要 的 任何 东西 ， 使 马尔 科 夫 网 络 变 成 一 种 很 灵 
活 的 代表 概率 分 布 的 方法 。 


实际 上 ， 我 撤 说 了 : 因素 的 产物 还 不 是 概率 ， 因 为 所 有 图 片 出 现 
的 概率 加 起 来 一 定 等 于 1， 而 且 不 能 保证 所 有 图 片 的 因素 产物 都 会 这 
样 。 我 们 需要 使 它们 正常 化 ， 这 就 意味 着 通过 它们 所 有 的 总 和 来 划分 
每 个 产物 。 那 么 所 有 正规 化 产物 的 总 和 就 可 以 保证 是 1， 因 为 它 仅 仪 是 
一 个 由 目 己 划分 的 数 子 。 那 么 一 张 照片 的 概率 就 是 它 的 特点 的 权 值 
和 ， 经 过 了 指数 化 和 正规 化 。 如 采 你 回头 看 五 角 星 中 的 等 式 ， 你 可 能 
会 微微 懂得 它 的 含义 。P 古 一 个 概率 ，w 是 权 值 的 一 个 向 量 ，n 是 数 子 
的 向量 ， 而 它们 的 点 积 “” 被 Z 指 数 化 和 划分 ，Z 是 所 有 产物 的 总 和 。 如 
果 我 们 让 第 一 个 组 成 部 分 n 为 1， 如 果 图 片 的 第 一 特征 不 是 真 束 古 零 
等 ， 那 么 wn 也 仅仅 是 我 们 一 直 以 来 谈论 的 、 特 征 权 值 总 和 的 速记 方 
二 


因此 根据 马尔 科 夫 网 络 ， 等 式 会 给 出 图 片 (或 者 随便 别 的 东西 ) 

的 概率 。 但 它 比 那 更 概括 ， 因 为 它 不 仅仅 是 马尔 科 夫 网 络 的 等 式 ， 而 
征 马 尔 科 夫 远 辑 网 络 的 等 式 ， 正 如 我 们 称呼 它 的 那样 。 在 马尔 科 夫 膛 
辑 网 络 (MLN) 中 ， 数 字 n 不 一 定 只 是 0 或 者 1， 而 且 它 们 不 指 代 特 征 
一 一 它们 指 代 逻 辑 公 式 。 在 第 八 半 的 结尾 部 分 ， 我 们 看 到 自己 如 何 超 
越 马 尔 可 夫 网 络 到 达 关 联 模型 ， 这 些 模型 依据 特征 模型 而 不 只 是 模型 
来 定义 。“ 爱 丽 丝 和 鲍 盈 都 患 有 流感 "是 特定 于 爱丽 丝 和 鲍 动 的 特 
点 。“X 和 Y 都 有 流 愿 "是 一 个 特征 模型 ， 可 以 和 爱丽 丝 和 鲍 勒 、 爱 丽 丝 
和 克 里 斯 等 其 他 任意 两 人 实例 化 。 特 征 模 型 很 有 力量 ， 因 为 它 可 以 利 
用 单个 短 表达 式 来 概括 几 十 亿 其 至 更 多 的 特征 。 但 我 们 需要 正式 的 语 
言 来 定义 特征 模型 ， 而 我 们 有 一 个 可 轻易 得 到 的 语言 一 一 逻辑 。 


一 个 MLN 只 是 一 组 逻辑 公式 及 其 权 值 。 当 应 用 到 特定 组 的 实体 
时 ， 在 这 些 实体 可 能 状态 的 基础 上 ， 它 定义 了 马尔 可 夫 网 络 。 例 如 ， 


如 果实 体 十 爱丽 丝 和 鲍 动 ， 可 能 的 状态 束 是 爱丽 丝 和 鲍 动 是 朋友 ， 受 
丽 丝 患 有 流感 ， 鲍 劲 也 一 样 。 让 我 们 假设 MLN 有 两 种 公式 :“ 每 个 人 
都 患 有 流感 ?和 “如 采 某 些 人 患 有 流感 ， 那 么 他 们 的 朋友 也 患 有 流感 ”。 
在 标准 逻辑 中 ， 这 吏 是 一 对 过 无 用 处 的 陈述 : 第 一 个 陈述 会 排除 所 有 
陈述 ， 即 使 古 包含 一 个 健康 人 的 陈述 也 会 被 排除 ， 而 第 二 个 束 会 变 得 
多 余 。 但 在 MLN 中 ， 第 一 个 公式 仅仅 意味 着 有 一 个 特征 对 于 每 个 人 X 
来 说 “X 患 有 流感 "， 和 公式 一 样 有 相同 的 权 值 。 如 末 人 们 可 能 有 流 
感 ， 公 式 束 会 有 较 高 的 权 值 ， 相 应 的 特征 也 会 有 。 有 很 多 健康 人 的 陈 
述 的 可 能 性 ， 会 比 有 少量 健康 人 的 陈述 要 小 ， 但 也 不 是 不 可 能 。 第 二 
个 公式 ,“ 某 些 人 患 有 流感 ， 而 他 们 的 朋友 没有 ”， 这 个 陈述 的 可 能 性 
要 比 健康 人 和 受 感 染 人 群 朋 友 群 不 一 样 的 陈述 的 可 能 性 要 小 。 


这 时 可 能 你 已 经 猜 到 mn 在 终极 算法 中 代表 什么 : 它 的 第 一 个 组 成 部 
分 是 陈 述 中 第 一 个 公式 真实 实例 的 数量 ， 第 二 个 是 第 二 个 真实 实例 的 
数量 ， 以 此 类 推 。 如 果 我 们 在 观察 一 个 有 10 个 朋友 的 小 组 ， 而 他 们 当 
中 有 7 个 人 患 有 流感 ， 那 么 n 的 第 一 个 组 成 部 分 就 是 7， 以 此 类 推 (如 果 
7/20， 而 不 是 7/10 的 朋友 有 流感 ， 难 道 概率 不 应 该 不 一 样 吗 ? 是 的 ， 不 
一 样 ， 因 为 有 Z) 。 在 极限 情况 下 ， 如 果 我 们 让 所 有 权 值 趋 于 无 穷 大 ， 
马尔 可 夫 逻 辑 殉 会 催化 为 标准 逻辑 ， 因 为 违 育 公式 的 单个 实例 ， 会 引 
起 概率 暴跌 至 0， 使 陈述 变 得 不 可 能 。 在 概率 方面 ， 当 所 有 公式 讨论 单 
个 话题 时 ，MLN 会 位 化 为 马尔 可 夫 网 络 。 因 此 瑟 尔 可 夫 逻 辑 包 含 逻辑 
和 马尔 可 夫 网 络 两 个 特殊 案例 ， 而 这 古 我 们 过 去 寻找 的 统一 效 采 。 


掌握 MLN 意 味 着 发 现世 界 上 真实 存在 的 公式 要 比 随 机 因素 预测 出 
的 频率 要 高 ， 并 且 和 需要 轩 明 白 那 些 公式 的 权 值 ， 公 式 使 它们 的 预测 概 
率 与 它们 的 观察 频数 相 匹配 。 一 旦 我 们 掌握 了 MLN， 就 可 以 利用 它 来 
回答 诸如 “如 果 鲍 艺 和 爱丽 丝 是 朋友 ， 而 且 爱 丽 丝 叫 有 流感 ， 那 么 鲍 勃 
患 有 流感 的 概率 是 多 少 ? 此 类 问题 。 你 猜 怎 么 着 ? 原来 概率 是 由 S 形 曲 
线 提供 的 ， 该 曲线 应 用 于 特征 的 加 权 和 ， 这 和 多 层 感 知 器 很 相似 。 而 


包含 长 串 规 则 的 MLN 可 以 表示 深度 神经 网 络 ， 在 规则 串 中 ， 每 层 会 有 
一 个 链接 。 


当然 ， 不 要 因为 上 文 提 到 的 人 答 单 MLN 预 测 了 流感 而 被 其 其 包 。 想 
象 一 下 用 MLN 诊 断 和 治愈 癌症 。MLN 代 表 细 胞 状态 下 的 概率 分 布 。 细 
胞 的 每 个 部 分 、 每 个 细胞 砷 、 每 条 代谢 途径 、 每 个 基因 及 日 细胞 ， 在 
MLN 中 都 古 一 个 实体 ， 而 MLN 的 公式 会 对 它们 之 间 的 差别 进行 编码 。 
我 们 可 以 询问 MLN: “这 个 细胞 疾 变 了 吗 ? ”然后 利用 不 同 的 药物 对 它 
进行 调查 ， 看 看 会 发 生 什 么 。 我 们 还 没有 这 样 一 个 MLN， 但 在 本 章 后 
面 我 会 设想 它 会 产生 。 


总 的 来 说 ， 我 们 到 达 的 统一 学 习 算 法 利用 MLN 作 为 表示 方法 ， 利 
用 后 验 概率 作为 评估 函数 ， 利 用 与 梯度 下 降 结 合 的 基因 搜索 作为 优化 
器 。 如 果 我 们 愿意 ， 可 以 轻易 地 利用 其 他 准确 度 测量 方法 来 代 蕉 后 验 
概率 ， 或 者 利用 扑 山 法 来 代 巷 遗传 搜索 。 我 们 上 升 到 一 座高 峰 ， 现 在 
我 们 可 以 圣 受 风景 了 。 但 是 ， 我 不 会 那么 轻率 地 将 这 个 学 习 算 法 称 作 
终极 算法 。 一 方面 ， 布 本 的 味道 好 不 好 ， 号 了 才 知 道 ， 而 且 虽 然 过 去 
10 年 这 种 算法 〈 或 者 它 的 变化 版 本 ) 已 经 成 功 应 用 于 许多 领域 ， 但 还 
是 有 许多 领域 没有 应 用 到 它 ， 因 此 还 不 清楚 它 的 一 般 用 途 。 男 一 方 
面 ， 它 还 有 一 些 重要 的 问题 没有 解决 。 在 看 这 些 问题 前 ， 让 我 们 先 看 
看 它 能 做 什么 。 


从 休 广 到 你 的 家 用 机 器 人 


你 可 以 从 alchemy.cs.washington.edu 这 个 网 站 下 载 我 刚才 摘 述 的 学 
习 算 法 。 用 “炼金 术 ” 来 为 它 命 名 是 为 了 提醒 我 们 ， 虽 然 它 取得 了 成 
功 ， 但 机 器 学 习 仍然 处 于 科学 的 炼金 术 阶 段 。 如 果 把 它 下 载 下 来 ， 你 
会 看 到 它 包含 的 东西 要 比 我 描述 过 的 基础 算法 多 得 多 ， 但 是 它 也 缺少 


几 个 我 之 前 说 的 通用 学 习 算 法 该 有 的 东西 ， 比 如 交叉 。 昌 然 如 此 ， 为 
了 简单 ， 让 我 们 利用 “炼金 术 ” 来 指 代 我 们 的 备用 通用 学 习 算 法 。 


炼金 术 解 决 了 休 误 的 原始 问题 ， 方 法 就 是 除了 数据 ， 要 拥有 其 他 
的 输入 东西 :你 的 原始 知识 ， 依 据 一 组 逻辑 公式 ， 有 还 是 没有 权 值 。 
公式 可 能 不 一 致 、 不 完整 甚至 完全 错误 ， 学 习 以 及 概率 推理 行为 会 关 
照 那 件 事 。 关 键 总 在 于 炼金 术 不 必 从 零 开 始 学 习 。 实 际 上 ， 我 们 甚至 
可 以 用 炼金 术 来 让 公式 保持 不 变 ， 然 后 只 对 权 值 进行 学 习 。 在 这 种 情 
况 下 ， 给 予 炼 金 术 恰当 的 公式 可 以 将 其 变 成 玻 尔 兹 曼 机 、 贝 叶 斯 网 
络 、 实 例 学 习 算 法 以 及 许多 别 的 模型 。 这 解释 了 为 什么 虽然 存在 “天 下 
没有 人 免费 的 午餐 ”的 定理 ， 但 可 以 有 通用 学 习 算 法 。 更 确切 地 说 ， 炼 金 
术 就 像 一 人 台 归 纳 图 灵机 ， 我 们 可 以 对 图 灵机 进行 编程 ， 使 其 行动 起 来 
像 非 党 有 力量 的 或 者 受到 极 大 限制 的 学 习 算 法 ， 这 取决 于 我 们 。 和 炼金 
术 为 机 右 学 习 提 供 统 一 物 ， 就 像 互 联网 为 计算 机 网 络 、 天 联 模型 为 数 
据 库 ， 或 者 图 形 用 户 界 面 为 日 常 应 用 提供 统一 物 那 样 。 


当然 ， 虽然 你 使 用 的 炼金 术 没 有 原始 工具 〈 而 且 你 可 以 ) ， 这 并 
不 会 让 它 不 包含 知识 。 形 式 语言 、 评 分 函数 、 优 化 絮 会 瞳 目 对 关于 世 
界 的 猜想 进行 编码 。 因 此 可 以 自然 地 问 我 们 是 否 有 比 炼金 术 更 通用 的 
学 习 算 法 。 当 进化 从 第 一 个 细胞 开始 它 的 长 途 之 旅 ， 一 直到 当今 所 有 
的 生命 形式 时 ， 进 化 会 做 出 什么 假设 ?我 认为 有 一 个 简单 的 假设 ， 所 
有 其 他 的 假设 都 会 遵循 这 个 假设 : 学 习 算 法 是 世界 的 组 成 部 分 。 这 丈 
意味 着 ， 学 习 算 法 作为 一 种 实体 系统 ， 和 它 的 环境 一 样 会 遵循 相同 的 
规律 ,无论 这 个 规律 是 什么 ,我们 都 已 经 暗暗 “知道 * 它 ， 并 做 好 准备 
去 发 现 它 。 在 搂 下 来 的 部 分 中 ， 我 们 会 看 到 这 个 规律 具体 意味 着 什 
么 ， 以 及 如 何在 炼金 术 中 体现 它 。 殊 目前 而 言 ， 我 们 注意 到 ， 它 可 能 
古 我 们 能 回答 的 休 谍 问题 中 最 好 的 管 案 : 一 方面 ， 假 设 学 习 算 法 是 世 
界 的 组 成 部 分 古 一 种 猜想 一 一 原则 上 是 这 么 说 ， 因 此 它 满足 休 谋 的 宣 
言 ， 认 为 学 习 仅 适 用 于 先 验 知识 ， 男 一 方面 ， 这 是 一 个 多 么 基础 而 且 
难以 反驳 的 猜想 ， 也 许 这 束 是 我 们 对 于 世界 所 需要 的 所 有 东西 。 


在 男 一 个 极端 ， 知 识 工 程 师 一 一 机 器 学 习 最 坚定 的 批评 者 一 一 有 
好 的 理由 来 喜欢 炼金 术 。 不 用 基本 模型 结构 或 者 几 次 大 概 的 猜想 ， 炼 
金 术 可 以 导入 一 个 大 型 、 细 致 的 装配 知识 基地 (如 果 它 可 用 ) 。 因 为 
概率 规则 与 确定 性 规则 相 比 ， 互 动 的 方式 更 为 丰富 ， 所 以 手工 编码 的 
知识 在 马尔 科 夫 逻辑 中 会 更 深入 。 马 尔 科 夫 逻辑 中 的 知识 基地 不 一 定 
要 首尾 一 致 ， 它 们 可 以 变 得 很 大 并 容纳 许多 不 同 的 主要 因素 而 不 会 裔 
站 一 一 这 是 一 个 目前 为 止 让 知识 工程 师 迷惑 的 目标 。 


虽然 如 此 ， 很 多 时 候 和 炼金 术 会 解决 机 器 学 习 中 每 个 学 派 销 研 了 很 
久 的 问题 。 让 我 们 反 过 来 看 看 它们 是 什么 。 


符号 学 家 结合 运算 中 不 同 碎片 的 知识 ， 这 和 数学 家 结合 公理 来 证 
明定 理 是 一 个 道理 。 这 和 神经 网 络 和 其 他 有 固定 结构 的 模型 馆 然 不 
同 。 炼 金 术 利用 逻辑 来 完成 这 件 事 ， 正 如 符号 学 派 所 做 的 那样 ， 却 是 
一 个 迁 回 曲折 的 过 程 。 为 了 证 明 逻 辑 中 的 定理 ， 你 需要 发 现 产 生 该 定 
理 的 公理 应 用 的 唯一 顺序 。 因 为 炼金 术 从 可 能 性 的 角度 谈 到 其 实 它 要 
做 得 更 多 : 找到 公式 的 多 重 序 列 ， 引 出 定理 或 者 它 的 否定 面 ， 然 后 对 
它们 进行 权衡 ， 以 计算 出 定理 真实 的 概率 。 这 样 它 能 推理 的 不 仅 与 数 
学 共性 有 关 ， 还 可 以 推理 在 一 则 新 闻 报道 中 的 “总 统 ” 指 的 是 不 十“ 巴 拉 
克 ' 奥 巴 马 ?， 或 者 一 封 邮 件 该 在 哪个 文件 夹 之 下 。 符 号 学 派 的 主 算法 
逆向 滥 绎 ,假定 新 的 逻辑 规则 ， 用 于 作为 数据 与 预期 结论 之 同 的 
步 又。 炼金 术 通 过 疏 山 法 来 介绍 痢 的 规则 ， 以 原始 规则 作为 开始 ， 与 
原始 规则 和 数据 相 结合 ， 构 建 使 结 采 概 率 更 大 的 规则 。 


关联 学 小 模型 的 灵感 来 源 于 大 脑 ，S 形 曲线 的 网 络 与 神经 元 相对 
应 ， 它 们 之 间 的 加 权 关 联 对 应 的 古 突 触 。 利 用 炼金 术 ， 如 采 两 个 变量 
在 某 个 公式 中 一 起 出 现 ， 那 么 它们 就 被 联 结 在 一 起 ， 考 虚 到 近邻 ， 一 
个 变量 的 概率 就 是 一 条 S 形 曲线 (我 不 会 解释 为 什么 ， 这 是 我 们 在 前 面 
部 分 看 到 的 主 算法 的 直接 结果 ) 。 联 结 学 派 的 主 算法 是 反 向 传播 ， 他 
们 利用 它 来 弄 清楚 哪个 神经 元 负责 哪些 误 付 ， 并 根据 它们 的 权 值 来 进 


行 调整 。 反 回 传 播 是 梯度 下 降 的 一 种 形式 ， 和 炼金 术 用 它 来 优化 马尔 科 
夫 逻 辑 网 络 权 值 。 


进化 学 派 利用 遗传 算法 来 模仿 目 然 选择 。 遗 传 算法 包含 假设 的 ”人 
口 ”， 在 每 一 代 中 ， 适 应 能 力 最 强 的 会 进行 交叉 和 变异 ， 以 生产 下 一 
代 。 炼 金 术 以 加 权 公 式 的 形式 来 维持 假设 的 “人 口 ”>， 在 每 一 步 中 以 不 
同 的 方法 对 它们 进行 改变 ， 然 后 把 那些 最 能 提高 数据 (或 者 一 些 其 他 
的 评分 函数 ) 后 验 概率 的 变量 留 下 。 如 果 人 口 是 一 个 单一 假设 ， 这 就 
简化 为 仆 山 法 了 。 当 前 炼金 术 的 开源 实施 并 不 包含 交 义 ， 但 这 束 是 一 
个 简单 的 加 法 。 进 化 学 派 的 主 算法 古 遗 传 编程 ， 应 用 交 义 和 突变 于 计 
算 机 程序 上 ， 以 子 集 树 的 形式 表示 出 来 。 子 集 树 可 以 用 一 组 逻辑 规则 
来 表示 ，Prolog 编 程 语言 就 是 这 么 做 的 。 在 Prolog 中 ， 每 个 规则 与 一 个 
子 集 对 应 ， 而 它 前 面 的 规则 是 它 称呼 的 子 集 。 因 此 我 们 可 以 将 市 有 交 
叉 的 炼金 术 当 作 利用 Prolog 相 似 编程 语言 的 遗传 编程 ， 这 样 会 有 一 个 
额外 的 优势 一 一 规则 可 以 是 概 率 性 的 。 


贝 叶 斯 学 派 相 信 模 拟 不 确定 性 是 学 习 的 关键 ， 并 利用 形式 表示 方 
法 如 贝 叶 斯 网 络 和 马尔 科 夫 网 络 来 工作 。 正 如 我 们 已 经 看 到 的 那样 ， 
马尔 科 夫 网 络 是 MLN 的 特殊 类 型 。 贝 叶 斯 网 络 利用 MLN 主 算法 也 可 以 
轻易 表示 出 来 ， 一 个 特征 对 应 一 个 变量 及 其 起 源 的 每 个 可 能 状态 ， 而 
相应 条 件 概率 的 算法 则 作为 它 的 权 值 〈 然 后 归 一 化 常数 Z 就 便利 地 简化 
为 1， 意 味 着 我 们 可 以 忽略 它 ) 。 贝 叶 斯 的 主 算法 是 贝 叶 斯 定理 ， 执 行 
的 方法 利用 概率 推理 算法 ， 比 如 置信 传播 和 MCMC 。 正 如 你 已 经 注 
章 到 的 那样 ， 贝 叶 斯 定理 是 主 算法 的 特例 ， 包 含 P=P (A|B) ，Z=P 

(B) ， 而 特征 和 权 值 对 应 P(A) 和 P \B|A) 。 人 炼金 术 系统 包含 置信 
传播 和 MCMC 用 于 推理 ， 推 广 至 处 理 加权 逻 辑 公 式 。 将 概率 推理 用 于 
对 逻辑 提供 的 证 明 路 线 上 ， 炼 金 术 为 支持 或 者 反对 结局 来 权衡 证 据 ， 
并 输出 结局 的 可 能 概率 。 这 与 符号 学 派 利 用 的 “单纯 功能 "逻辑 相反 ， 
该 逻辑 不 是 全 有 就 是 全 无 ， 因 此 当 给 定 矛 盾 证 据 时 ， 该 逻辑 就 会 崩 


竺 。 


类 推 学 派 的 学 习 方法 是 假设 有 已 知 相似 属性 的 实体 ， 也 会 有 相似 
的 未 知 属性 : 拥有 相似 症状 的 病人 也 会 有 相似 的 诊断 ， 过 去 襄 欢 买 某 
类 书 的 读者 可 能 未 来 还 会 买 同样 的 书 ， 等 等 。MLN 可 以 代表 具有 
像 * 拥 有 相同 品位 的 读者 会 天 相同 的 书 ” 公 式 的 实体 之 间 的 相似 性 。 爱 
丽 丝 和 鲍 勃 买 到 的 相同 的 书 越 多 ， 他 们 越 可 能 有 相同 的 品位 (将 相 
同 的 公式 应 用 于 相反 方向 中 ) 如 果 鲍 勃 买 一 本 书 ， 爱 丽 丝 也 买 这 本 书 
的 概率 就 比较 大 。 他 们 的 相似 性 由 他 们 有 相同 品位 的 概率 来 表示 。 为 
了 使 这 一 方法 真正 起 作用 ， 对 于 相同 规则 的 不 同 实例 ， 我 们 可 以 有 不 
同 的 权 值 ， 如 果 爱 丽 丝 和 鲍 动 都 天 了 茶 本 罕见 的 书 ， 这 包含 的 信息 量 
也 许 会 比 他 们 购买 畅销 书 的 信息 量 大 ， 因 此 应 该 有 更 高 的 权 值 。 在 这 
种 情况 下 ， 相 似 度 由 我 们 计算 的 属性 是 离散 的 〈《 严 或 者 不 买 ) ， 但 我 
们 也 可 以 在 连续 属性 之 间 表 示 相 似 度 ， 束 像 两 座 城市 之 间 的 距离 一 
样 ， 方 法 区 是 让 MLN 把 这 些 相似 性 当 作 特 点 。 如 采 评 估 辑 数 是 一 个 边 
际 风格 评分 函数 ， 而 不 是 后 验 概 率 ， 结 采 殉 是 文 持 问 量 机 的 概括 版 ， 
也 就 十 类 推 学 派 的 主 算法 。 我 们 的 主 学 习 算 法 面临 的 更 大 挑战 是 复制 
结构 地 图 ， 这 是 类 比 更 强大 的 类 型 ， 可 以 从 这 个 域 (比如 太阳 系 ) 推 
断 到 另外 一 个 域 (原子 ) 。 我 们 可 以 通过 学 习 公 式 来 做 到 这 一 点 ， 这 
些 公式 不 会 指 代 源 域 中 的 任何 特定 关系 。 例 如 , “抽烟 的 人 的 朋友 也 抽 
烟 ? 讲 的 是 友谊 和 抽烟 ， 但 “相关 的 实体 有 相似 的 属性 ”运用 于 任何 关系 
和 属性 。 我 们 可 以 通过 概括 “朋友 的 朋友 也 抽烟 ， 专 家 的 同事 也 是 专 
家 ”来 掌握 它 ， 还 有 在 社交 网 络 中 其 他 这 样 的 模式 ， 然 后 将 其 应 用 到 诸 
如 网 页 之 类 的 地 方 ， 包 含 像 “ 有 趣 的 网 页 会 链接 到 有 趣 的 网 页 ”这 样 的 
实例 ， 或 者 应 用 于 分 子 生物 学 中 ， 包 含 像 与 蛋 日 质 调控 互动 的 蛋白 质 
会 调控 基因 ”这 样 的 实例 。 我 的 小 组 的 研究 人 员 和 其 他 人 已 经 完成 所 
有 这 些 事 ， 搁 着 还 会 做 更 多 。 


炼金 术 也 可 以 局 动 我 们 在 第 八 革 提 到 的 5 种 无 监督 学 习 。 显 然 ， 它 
会 进行 关系 学 习 ， 实 际 上 ， 这 网 是 它 很 多 已 应 用 的 地 方 。 炼 金 术 利用 
逻辑 来 代表 实体 之 间 的 关系 ， 以 及 用 马尔 科 夫 网 络 来 使 它们 目 己 变 得 
不 确定 。 我 们 可 以 将 炼金 术 变 成 强化 学 习 算法 ， 方 法 殉 是 利用 奖励 环 


绕 它 ， 并 利用 它 来 掌握 每 种 状态 的 值 ， 这 和 传统 强化 学 习 算 法 利用 的 
方法 一 样 ， 比 如 神经 网 络 。 我 们 可 以 在 炼金 术 内 部 进行 组 块 ， 方 法 就 
征 添加 一 种 新 的 运算 ， 这 种 运算 会 将 一 串 串 的 规则 变 成 单个 规则 〈 例 
如 ,“ 如 果 A 那 么 B， 如 果 B 那 么 C， 如 果 A 那 么 C") 。 一 个 带 有 单个 未 
观察 到 变量 〈 且 该 变量 与 所 有 可 观察 变量 相 联 结 ) 的 MLN 会 进行 聚 类 
(未 观察 到 变量 是 这 样 一 个 变量 : 我 们 从 未 在 数据 中 见 过 它 的 值 ， 
征 “隐藏 的 ”， 可 以 这 么 说 ， 只 能 通过 推断 得 出 ) 。 包 含 一 个 以 上 未 观 
察 到 变量 的 MLN， 通 过 由 可 观察 变量 (数量 更 多 ) 推 煌 那 些 变量 ( 数 
量 更 少 ) 的 值 的 方法 ， 来 进行 离散 降 维 。 炼 金 术 也 可 以 利用 连续 未 观 
察 到 变量 来 处 理 MLN， 这 些 变量 会 在 诸如 主要 成 分 分 析 、 等 距 映 射 的 
过 程 中 用 到 。 因 此 ， 原 则 上 说 ， 炼 金 术 可 以 做 所 有 我 们 让 机 器 人 罗 比 
做 的 事 ， 或 者 至 少 所 有 我 们 在 本 书 中 讨论 过 的 事 。 的 确 ， 我 们 已 经 利 
用 炼金 木 来 让 机 器 人 掌握 其 所 在 环境 的 地 图 ， 通 过 它 的 传 感 右 弄 明 白 
哪里 十 墙 、 哪 里 是 门 ， 以 及 它们 的 角度 和 距离 等 ， 这 是 制造 称职 家 用 
机 器 人 的 第 一 步 。 


最 终 ， 我 们 可 以 将 炼金 术 变 成 一 种 元 学 习 算 法 ， 比 如 通过 将 个 体 
分 类 器 编码 成 MLN 来 进行 堆 著 ， 添 加 公式 或 者 学 习 公 式 以 将 它们 结合 
起 来 。 这 就 是 DAPRA 在 其 个 性 化 学 习 助 手 (PAL) 项 目 中 所 做 的 。 
PAL 是 DARPA 历 史上 最 大 型 的 人 工 智能 工程 ， 也 是 Siri 的 祖先 。PAL 的 
目标 是 构建 自动 化 秘书 。 它 利用 马尔 科 夫 逻辑 来 作为 其 支配 一 切 的 表 
示 方 法 ， 将 来 自 不 同 模块 的 输出 融合 到 该 做 什么 的 最 终 决 定 中 。 这 也 
人 允许 PAL 的 模块 通过 追求 统一 意见 来 彼此 互相 学 习 。 


目前 炼金 术 最 大 的 应 用 在 于 从 网 络 中 学 习 语 义 网 络 (或 者 谷歌 所 
谓 的 知识 图 谱 ) 。 一 个 语义 网 络 就 是 一 组 概念 ( 束 像 行星 与 恒星 ) 以 
及 这 些 概念 中 的 关系 (行星 环绕 恒星 ) 。 炼 金 术 会 通过 从 网 页 中 提取 
的 事实 (例如 ， 地 球 绕 着 太阳 转 ， 来 掌握 100 万 个 以 上 这 样 的 模式 。 它 
会 独 目 发 现 诸如 行星 之 类 的 概念 。 我 们 之 前 使 用 过 的 版 本 ， 比 我 在 此 
已 经 描述 过 的 基本 版 要 先进 ， 但 基本 思想 是 一 样 的 。 各 式 各 样 的 研究 


已 经 利用 炼金 术 或 者 他 们 自己 的 MLN 执 行 工具 来 解决 自然 语言 处 理 、 
计算 机 视觉 、 动 作 识别 、 社 会 网 络 分 析 、 分 子 生物 学 及 其 他 许多 领域 
中 的 问题 。 


尽管 成 功 了 ， 炼 金 术 还 是 有 一 些 明显 的 不 足 之 处 ， 它 还 没有 真正 
扩展 到 大 数据 ， 而 一 些 在 机 器 学 习 领域 没有 博士 学 位 的 人 会 发 现 它 很 
难 使 用 。 因 为 这 些 问题 ， 它 还 没有 准备 就 绪 ， 让 我 们 看 看 能 对 它们 做 
些 什么 。 


行星 尺度 机 器 学 习 


在 计算 机 科学 中 ， 如 果 一 个 问题 没 能 得 到 有 效 解决 ， 它 束 没 有 真 
的 得 到 解决 。 如 采 你 不 能 在 可 用 时 间 和 记忆 内 完成 一 件 事 ， 那 么 知道 
这 件 事 怎么 做 并 没有 多 大 用 处 ， 因 为 在 你 处 理 MLN 时 ， 这 些 时 间 和 记 
忆 会 消耗 得 很 快 。 通 常 我 们 利用 数 百 万 的 变量 和 数 十 亿 的 特征 来 对 
MLN 进 行 学 习 ， 但 这 并 不 像 表 面 看 起 来 的 那么 大 规模 ， 因 为 变量 的 数 
量 会 随 着 MLN 中 实体 的 数量 迅速 增长 一 一 如 果 你 有 一 个 包含 1000 人 的 
社交 网 络 ， 你 就 已 经 拥有 100 万 对 可 能 的 朋友 ， 以 及 10 亿 个 “朋友 的 朋 
友 是 朋友 ”公式 的 实例 。 


炼金 术 中 的 推理 是 逻辑 与 概率 推理 的 结合 。 前 者 通过 证 明定 理 来 
完成 ， 后 者 则 通过 置信 传播 、MCMC 以 及 我 们 在 第 六 章 中 见 过 的 其 他 
方法 来 完成 。 我 们 将 两 者 结合 至 概率 定理 证 明 中 ， 统 一 推理 算法 可 以 
计算 任意 逻辑 公式 的 概率 ， 是 当前 炼金 木 系统 的 关键 部 分 。 但 在 计算 
法 方面 ， 它 需要 的 很 多 。 如 果 你 的 大 脑 利 用 概率 定理 证 明 ， 那 么 一 只 
老虎 会 在 你 没 来 得 及 想 明 白 如 何 逃 离 时 就 把 你 吃 挤 ， 这 就 古 马 尔 科 夫 
逻辑 一 般 性 的 高 郧 代价 。 你 的 大 脑 在 真实 世界 中 已 经 进化 ， 必 须 对 额 
外 的 猜想 进行 编码 ， 这 样 有 利于 它 进行 有 效 推理 。 在 过 去 几 年 中 ， 我 
们 已 经 开始 弄 清 楚 它 们 可 能 是 什么 ， 并 将 其 编码 入 炼金 术 。 


这 个 世界 并 不 是 由 随意 杂乱 的 相互 关系 组 成 的 ， 它 有 等 级 结构 : 
星系 、 行 星 、 大 陆 、 国 家 、 城 市 、 社 区 、 你 的 家 、 你 、 你 的 头 、 你 的 
鼻子 、 其 顶部 的 细胞 、 它 里 面 的 细胞 器 、 分 子 、 原 子 、 亚 原子 粒子 。 
那么 模拟 世界 的 方法 会 用 到 MLN ， 也 有 等 级 结构 。 这 是 一 个 猜想 的 例 
子 ， 学 习 算法 和 环境 都 相似 。MLN 不 需要 知道 ， 基 于 假定 ， 世 界 由 哪 
些 部 分 组 成 。 炼 金 术 要 做 的 ， 束 是 假设 世界 有 寿 干 个 组 成 部 分 ， 然 后 
将 这 些 部 分 找 出 来 。 这 很 像 一 个 刚 做 好 的 书 染 ， 假 设 有 若干 书 ， 但 还 
不 知道 哪些 书 会 放 在 书架 上 。 等 级 结构 有 助 于 使 推理 更 易于 处 理 ， 因 
为 世界 的 于 部 分 更 多 的 是 会 与 同 部 分 的 子 部 分 互动 ， 比 如 ， 邻 居 彼 此 
之 间 的 交流 会 多 于 与 其 他 国家 人 民 的 交流 ， 由 同一 个 细胞 产生 的 分 子 
也 会 更 多 地 与 那个 细胞 的 其 他 分 子 进行 反应 。 


男 外 一 个 使 学 习 和 推理 变 得 更 容易 的 属性 ， 束 是 存在 于 世界 的 实 
体 不 会 以 任意 形式 出 现 。 它 们 会 分 成 不 同 的 类 别 和 子 类 别 ， 来 目 同 一 
等 级 的 成 员 之 间 的 相似 性 会 大 于 来 目 不 同 等 级 成 员 之 间 的 相似 性 。 有 
生命 的 或 者 无 生命 的 ， 动 物 或 者 植物 ， 乌 类 或 者 哺乳 类 ， 人 类 或 者 非 
人 类 ， 如 来 我 们 知道 与 当前 问题 相关 的 所 有 特质 ， 束 可 以 将 所 有 这 些 
特质 以 及 可 以 省 很 多 时 间 的 实体 合 在 一 起 。 像 以 前 那样 ，MLN 不 用 
知道 基于 假定 的 世界 上 的 类 别 是 什么 ， 它 可 以 通过 分 级 聚 类 来 从 数据 
中 掌握 这 些 类 别 。 


世界 包含 各 个 部 分 ， 而 每 个 部 分 又 属于 不 同类 别 ， 将 这 些 部 分 和 
类 别 结合 起 来 ， 这 样 使 炼金 术 中 的 推理 变 得 易于 处 理 所 需 要 的 东西 吏 
已 经 基本 齐全 。 我 们 可 以 掌握 世界 的 MLN， 方 法 束 是 将 其 分 解 成 春 干 
部 分 和 子 部 分 (这 样 多 数 互动 关系 就 存在 于 同一 部 分 的 子 部 分 之 
间 ) ， 然 后 将 各 个 部 分 集合 成 类 别 和 子 类 别 。 如 果 世 界 是 一 个 乐高 玩 
具 ， 那 么 我 们 将 其 分 解 为 一 块 块 “ 砖 ”"， 记 住 哪 块 和 哪 块 相连 ,然后 通 
过 形状 和 颜色 来 将 “ 夸 块 "集合 起 来 。 如 果 这 个 世界 是 维基 百科 ， 我 们 
可 以 将 它 谈论 的 实体 抽取 出 来 ， 将 它们 集合 成 类 别 ， 然 后 学 习 类 别 之 
间 如 何 相互 关联 。 如 果菜 人 问 我 们 : “阿诺德 : 施 瓦 六 格 是 动作 明星 


吗 ? "我们 可 以 回答 :“ 有 是 的 ， 因 为 他 是 明星 ， 而 且 他 在 动作 片 里 。? 渐 
渐 地 ， 我 们 能 够 学 习 越 来 越 大 规模 的 MLN， 直 到 去 做 我 的 一 位 合 歌 朋 
友 称 作 “ 世 界 范 围 的 机 器 学 习 ” 的 事 ， 同 时 模拟 世界 上 的 每 个 人 ， 数 据 
会 不 断 流入 ， 管 案 则 不 断 流出 。 


当然 ， 如 此 规模 的 学 习 需 要 的 不 仅 古 直接 执行 我 们 见 过 的 算法 。 
例如 ， 除 这 一 点 之 外 ， 单 个 处 理 器 还 不 足够 ,我们 得 在 许多 服务 絮 上 
分 配 学 习 。 工 业 和 学 术 办 的 研究 人 员 已 经 深入 调查 ， 例 如 ， 如 何 并 行 
使 用 多 台 计 算 机 来 进行 梯度 下 降 ， 其 中 一 个 移 择 束 是 在 处 理 紫 之 间 划 
分 数据 ， 男 外 一 个 束 古 划分 模型 的 参数 。 在 每 个 步 又 之 后 ， 我 们 将 结 
果 整 合 起 来 ， 然 后 重新 分 配 工 作 。 不 管 怎样 ， 在 不 让 交流 成 本 压倒 
你 ， 或 者 不 让 结果 的 质量 受 困扰 的 情况 下 完成 这 件 事 ， 做 到 这 一 点 绝 
非 易 事 。 男 外 一 个 问题 就 是 ， 如 来 你 有 无 数 数据 串 要 输入 ， 那 么 你 在 
实现 菏 些 决定 之 前 ， 不 能 等 着 看 数据 。 一 个 解决 办 法 号 古 利 用 采样 原 
理 : 如 果 你 想 预 测 谁 会 局 得 下 一 届 总 统 选举 ， 束 不 必 问 每 个 选民 会 投 
给 谁 ， 几 千 个 人 的 样本 已 经 足够 (如 采 你 愿意 接受 一 点 不 确定 ) 。 诀 
各 就 古 把 这 个 推广 到 拥有 几 百 万 个 参数 的 复 洒 模型 中 。 但 我 们 只 能 通 
过 这 样 的 方法 做 到 一 点 ， 即 在 每 一 步 中 尽量 从 数据 流 中 举例 子 ， 因 为 
我 们 要 十 分 肯定 目 己 做 了 正确 的 决定 ， 并 且 所 有 决定 的 不 确定 性 保持 
在 允许 范围 内 。 利 用 这 种 方法 ， 我 们 束 可 以 在 有 限 的 时 间 内 从 无 限 数 
据 中 学 到 东西 ， 整 像 我 在 一 篇 提议 这 种 方法 的 论文 中 提 及 的 那样 。 


大 数据 流 系统 是 塞 西 尔 . 德 米尔 机 顺 学 习 的 产品 ， 拥 有 数 千 个 服务 
郁 ， 而 不 征 数 千 个 附加 设备 。 在 最 大 型 的 项 目 中 ， 只 要 把 所 有 数据 汇 
集 起 来 、 验 证 数据 、 清 除数 据 、 将 数据 处 理 成 学 习 算 法 能 消化 的 形 
式 ， 这 样 做 ， 建 造 金字 培 就 商 单 得 像 在 公园 散步 一 样 。 

欧洲 的 “未 来 信息 和 通信 技术 ”项目 旨 在 建造 整个 世界 (真正 含义 


即 是 字面 意思 ) 的 模型 。 社 人 会、 政府、 文化、 技术、 农业 、 疾 病 、 全 
球 经 济 等 不 能 落下 一 样 。 这 当然 还 不 成 熟 ， 但 它 却 预示 着 未 来 要 发 生 


的 事 。 同 时 ， 像 这 样 的 项 目 可 以 帮助 我 们 找到 可 扩展 性 的 极限 在 哪 
里 ， 以 及 如 何 殉 服 这 些 极 限 。 


计算 复杂 性 是 一 件 事 ， 人 类 复杂 性 是 男 外 一 件 事 。 如 果 计 算 机 就 
像 日 痴 专 家 ， 那 么 学 习 算 法 有 时 会 遇 到 少年 天 才 乱 发 脾气 的 情况 ， 这 
也 是 那些 能 征服 他 们 的 人 类 会 收获 左下 的 原因 之 一 。 如 果 你 知道 以 专 
业 的 手法 调整 控制 旋钮 ， 直 到 到 达 恰 当 的 位 置 ， 那 么 魔法 融会 随 之 而 
来 ， 以 一 连 串 超越 学 习 算 法 年 份 见解 的 形式 出 现 。 


而 且 ， 和 德尔 斐 神 论 并 无 两 样 的 是 ， 解 释 学习 算 法 的 宣言 本 喘 需 
要 大 量 的 技能 。 虽 然 如 此 ， 如 果 转 错 手 柄 ， 学 习 算 法 可 能 会 涌 出 一 系 
列 胡 言 乱 语 ， 或 者 在 反抗 中 保持 沉默 。 不 邓 的 是 ， 融 这 一 点 而 言 ， 炼 
金 术 并 不 比 多 数 算 法 好 。 把 你 知道 的 用 逻辑 的 形式 写 下 来 、 输 入 数 
据 、 按 下 按钮 才 是 好 玩 的 部 分 。 当 炼金 术 返 回 准确 而 有 效 的 MLN 时 ， 
你 会 去 酒吧 庆祝 ， 当 它 不 返回 时 一 一 很 多 时 候 会 出 现 的 状况 一 一 战争 
束 开 始 了 。 问 题 存 在 于 知识 、 学 习 、 推 理 中 吗 ? 一 方面 ， 因 为 学 习 和 
概率 推理 ， 人 简单 的 MLN 可 以 做 复杂 程序 能 做 的 事 。 男 一 方面 ， 当 它 不 
起 作用 时 ， 调 试 起 来 惑 困难 很 多 。 解 决 办 法 就 是 让 它 更 加 交互 ， 有 能 
力 进 行 反 省 ， 并 解释 它 的 推理 。 这 就 会 让 我 们 癌 终 极 算 法 更 加 靠近 一 
hs 


医生 马上 来 看 你 


治愈 癌 症 的 方法 古 一 种 能 够 输入 癌症 基因 组 ， 并 输出 杀 死 癌 细 胞 
药物 的 程序 。 我 们 现在 可 以 想象 ， 这 样 的 程序 (就 叫 它 “CanceRx”) 会 
长 什么 样 。 尽 管 外 表 上 看 起 来 简单 ，CanceRx 是 编 出 的 程序 中 规模 最 
大 也 是 最 复杂 的 程序 ， 的 确 太 大 了 ， 所 以 它 只 能 在 机 右 学 习 的 辅助 下 
建立 。 它 的 基础 症 一 个 天 于 活 细 胞 如 何 运转 的 详细 模型 ， 人 体内 的 每 
种 细胞 都 会 有 一 个 子 类 别 ， 还 有 关于 细胞 如 何 互 动 、 文 配 一 切 的 模 


型 。 该 模型 以 MLN 或 者 与 其 相似 的 形式 ， 将 分 于 生物 学 的 知识 与 来 目 
DNA 测 序 仪 、 微 阵列 ， 以 及 其 他 许多 来 源 的 大 量 数 据 结 合 起 来 。 有 些 
数据 通过 手动 进行 编程 ， 但 大 部 分 是 从 生物 医学 文献 中 提取 出 来 的 。 
模型 会 不 断 进化 ， 并 将 新 实验 的 结果 、 数 据 来 源 、 患 者 病历 合并 起 
来 。 最 后 ， 它 了 驶 掌握 每 种 类 型 人 体 细胞 中 的 每 条 路 线 、 调 节 机 制 、 化 
学 反应 ， 这 避 是 人 体 分 子 生物 学 的 总 和 。 


CanceRx 会 将 其 大 部 分 时 间 用 于 搜索 包含 备 选 约 物 的 模型 。 考 虑 
到 新 欧 ， 该 模型 会 预测 药物 对 癌 细 胞 和 正常 细胞 的 效果 。 当 爱丽 丝 被 
诊断 为 癌症 时 ，CanceRx 会 利用 她 的 正常 细胞 和 肿瘤 来 将 它 的 模型 实 
例 化 ， 并 尝试 所 有 可 能 的 药物 ， 直 到 它 找到 一 种 能 杀 死 净 细 胞 而 叉 不 
伤害 健康 细胞 的 药物 。 如 果 它 找 不 到 有 将 药 物 或 者 有 效 药 物 组 合 ， 那 
么 它 就 会 着 手 研发 一 种 会 治愈 癌 症 的 药 ， 也 许 会 利用 扑 山 法 或 者 交叉 
法 来 让 它 从 现 有 的 药物 中 发 展 起 来 。 它 会 在 研究 中 的 每 一 步 中 ， 在 模 
型 上 党 试 备 选 药物 。 如 采 药 物 抑 制 了 癌症 ， 但 仍然 有 一 些 有 害 的 副 作 
用 ，CanceRx 会 笑 试 调整 它 以 摊 脱 副作用 。 在 瘤 症 变异 前 ， 模 型 就 能 
预测 可 能 的 变异 ，CanceRx 束 会 开 出 那些 能 在 中 途 扼 杀 奖 变异 细胞 的 
药物 。 在 人 性 与 癌症 这 场 象棋 游戏 中 ，CanceRx 将 是 将 军 。 


请 注意 机 器 学 习 不 会 独自 把 CanceRx 给 我 们 。 这 不 像 我 们 有 一 个 
巨大 的 分 子 生物 学 数据 库 整 装 竺 发， 将 这 个 数据 库 输 入 终极 算法 ， 弹 
出 来 的 是 活 细胞 的 完美 模型 。 在 多 次 交互 作用 下 ，CanceRx 可 能 是 无 
数 生 物 学 家 、 肿 瘤 医 生 、 数 据 科 学 家 进行 世界 范围 内 合作 的 最 终结 
果 。 然 而 ， 最 重要 的 是 ，CanceRx 会 在 医生 和 医院 的 协助 下 ， 从 几 百 
万 个 癌症 病人 中 整合 数据 。 没 有 数据 ， 我 们 就 无 法 治愈 癌 症 ， 有 了 
它 ， 束 能 治 鳃 癌症 。 为 整个 不 断 壮 大 的 数据 库 做 贡献 ， 这 不 仅 是 每 个 
病人 的 利益 ， 还 是 它 的 伦理 责任 。 在 CanceRx 的 世界 中 ， 离 散 的 临床 
实验 是 过 去 的 事情 。CanceRx 提 出 的 新 治疗 方法 也 正在 继续 被 推出 ， 
如 条 这 些 治疗 方法 起 作用 ， 则 会 用 到 更 广 范围 的 病人 喘 上 。 在 经 过 改 
善 的 民 性 循环 中 ， 成 功 和 失败 的 经 历 都 会 为 CanceRx 的 学 习 提 供 宝贵 


的 数据 。 如 末 你 以 某 种 方式 看 待 它 ， 机 器 学 习 可 能 只 十 CanceRx 工 程 
的 一 小 部 分 ， 仅 次 于 数据 收集 和 人 类 页 献 。 但 如 果 以 别 的 方式 看 待 
它 ， 机 器 学 习 就 古 整个 企业 的 关键 。 没 有 它 ， 我 们 只 能 掌握 冶 症 生物 
学 的 零碎 知识 ， 散 落 在 数 千 个 数据 库 和 数 百 万 篇 科学 文 草 中 ， 每 个 医 
生 只 会 注意 一 小 部 分 。 将 所 有 这 些 知识 集中 成 一 个 连贯 整体 ， 这 超出 
了 不 受 协 助 的 人 类 的 能 力 ， 无 论 人 类 多 么 聪明 ， 只 有 机 霹 学 习 才 能 做 
到 这 件 事 。 因 为 每 种 癌症 都 不 一 样 ， 它 让 机 絮 学 习 找 到 通用 模式 。 而 
且 因 为 单个 组 织 会 产生 几 十 亿 个 数据 点 ， 这 束 需 要 机 絮 学 习 来 弄 明 日 
能 为 每 个 新 病人 做 点 什么 。 


现在 人 们 已 经 在 努力 建造 最 终 会 成 为 CanceRx 的 东西 。 在 系统 

物 学 的 新 领域 中 的 研究 员 会 模拟 整个 代谢 网 络 ， 而 非 个 体 基 因 和 有 蛋白 
质 。 位 于 斯 坦 福 的 一 个 团队 已 经 构建 了 整个 细胞 的 模型 。 全 球 基因 组 
学 与 健康 联盟 推动 数据 在 研究 员 和 肿瘤 学 家 之 间 的 分 享 ， 着 眼 于 大 规 
模 分 析 。 癌症 联盟 会 《Cancer Commons.org) 收集 癌症 模型 ， 让 病人 
集中 他 们 的 病历 ， 然 后 从 相似 例子 中 学 习 。 基 础 医学 (Foundation 
Medicine) 查 明 病人 肿瘤 细胞 中 的 变异 ， 然 后 开 出 最 合适 的 药物 。10 
年 前 ， 人 们 不 知道 癌症 是 否 可 以 或 者 如 何 被 治愈 ， 现 在 我 们 就 能 看 到 
如 何 做 到 这 一 点 。 路 还 很 长 ， 但 我 们 已 经 找到 路 了 。 


第 十 章 
建立 在 机 研学 习 之 上 的 世界 


既然 你 已 经 游 虎 了 机 器 学 习 仙 境 ， 现 在 让 我 们 调整 档 位 ， 看 看 这 
一 切 对 你 来 说 意味 着 什么 。 束 像 《 黑 客 帝 国 》 中 的 红色 药丸 一 样 ， 终 
极 算 法 是 通 往 不 同 现实 状况 的 大 门 : 你 已 经 生存 在 这 个 现实 当中 ， 但 
对 它 还 不 了 解 。 从 约会 到 上 班 、 从 目 我 认 知 到 社会 的 未 来 、 从 数据 分 
译 到 战争 、 从 人 工 智 能 的 危险 到 进化 的 下 一 步 ， 新 的 世界 正在 形成 ， 
而 机 器 学 习 是 解锁 这 个 世界 的 钥 屿 。 本 半 将 会 有 助 于 你 在 生活 中 充分 
利用 机 器 学 习 ， 然 后 为 即将 到 来 的 东西 做 好 准备 。 机 器 学 习 不 会 单独 
决定 未 来 ， 这 和 其 他 技术 一 样 ， 真 正 重要 的 是 我 们 用 它 决 定 要 做 的 
事 ， 现 在 你 有 了 用 于 决定 的 工具 。 


在 这 些 工 具 当 中 最 主要 的 是 终极 算法 。 无 论 它 什么 时 候 会 出 现 ， 
无 论 尼 看 起 来 是 否 像 炼金 木 ， 这 些 都 没有 它 涵盖 的 东西 重要 : 一 种 学 
习 算 法 不 可 或 缺 的 能 力 ， 以 及 这 些 能 力 能 让 我 们 实现 什么 目的 。 我 们 
也 可 以 把 终极 算法 当成 现在 和 未 来 学 习 算 法 的 合成 图 。 我 们 可 以 很 方 
便 地 将 该 合成 图 用 在 思维 实验 中 ， 代 替 产 品 X 或 者 网 页 Y 中 的 特殊 算 
法 ， 这 些 产 品 或 者 网 页 所 属 的 公司 不 太 可 能 会 分 至 它们 的 产品 。 由 此 
看 来 ， 每 天 与 我 们 互动 的 学 习 算 法 是 终极 算法 的 萌芽 版 ， 我 们 的 任务 
束 是 了 解 它 们 ， 推 动 其 成 长 以 更 好 地 满足 我 们 的 需要 。 


在 未 来 10 年 ， 机 器 学 习 会 大 范围 影响 人 类 的 生活 ， 只 用 一 本 书 的 
一 个 章 世 无 法 描述 清楚 。 即 便 如 此 ， 我 们 已 经 看 到 许多 重复 出 现 的 主 
题 ， 这 些 主题 就 是 我 们 的 关注 点 ， 并 以 心理 学 家 所 请 的 “心理 理论 ” 作 
为 开始 ， 更 确切 地 说 ， 是 以 你 的 心理 的 计算 机 理论 作为 开始 。 


性 、 谎 言 和 机 器 学 习 


你 的 数字 化 未 来 从 一 个 感悟 开始 : 每 次 你 和 计算 机 相互 作用 时 
一 一 无 论 羡 你 的 智能 手机 ， 还 是 儿 千 英里 以 外 的 服务 亏 一 一 你 都 会 从 
两 个 层面 上 这 样 做 。 第 一 个 层面 是 ， 当 场 惑 得 到 你 想 要 的 东西 ， 如 问 
题 的 答案 、 你 想 买 的 产品 、 一 张 新 的 信用 卡 。 第 二 个 层面 ， 从 长 远 来 
看 也 十 最 重要 的 一 个 ， 驶 是 教会 计算 机 关于 你 的 东西 。 你 教会 它 越 多 
的 东西 ， 它 就 越 能 更 好 地 为 你 服务 (或 者 操纵 你 。 生 活 就 是 你 和 包 
围 你 的 学 习 算法 之 间 的 游戏 。 你 要 么 拒绝 参与 游戏 ， 那 么 你 束 得 在 21 
世纪 过 20 世 纪 的 生活 ， 要 么 从 游戏 中 获胜 。 你 想 让 你 的 计算 机 拥有 你 
的 哪个 模型 ? 为 了 产生 那个 模型 ， 你 能 给 它 什 么 数据 ? 当 你 和 一 种 学 
习 算 法 互动 时 ， 脑 子 里 束 应 该 一 直 思 考 这 两 个 问题 ， 就 像 你 和 其 他 人 
互动 时 一 样 。 爱 丽 丝 知道 鲍 盈 对 她 有 一 个 心理 模型 ， 并 试图 通过 她 的 
行为 来 塑造 这 个 模型 。 如 采 鲍 勃 是 她 的 上 司 ， 她 努力 给 他 能 干 、 忠 
诚 、 努 力 工作 的 形象 ， 如 果 鲍 动 古 她 想 诱 惑 的 对 象 ， 她 束 以 最 性 感 的 
一 面 出 现 。 对 于 别人 在 想 什么 这 一 点 ， 如 采 无 法 孝 直 觉 知道 并 做 出 反 
应 ， 那 么 我 们 就 很 难 在 社会 上 活动 。 当 今世 界 新 奇 的 地 方 在 于 计算 机 
(不 仅仅 是 人 类 ) 也 开始 有 心理 理论 了 了 。 它 们 的 理论 仍然 有 点 粗 烽 ， 
但 发 展 得 很 快 ， 而 为 了 拿 到 我 们 想 要 的 东西 ， 不 得 不 与 它们 进行 合作 
一 一 不 少 于 和 其 他 人 的 合作 。 因 此 你 需要 计算 机 心理 的 理论 ， 将 评分 
函数 (你 认为 学 习 算 法 的 目标 是 什么 或 者 更 准确 地 说 ， 它 的 主人 的 
目标 是 什么 ) 和 数据 〈 你 认为 它 知道 的 东西 ) 带 入 之 后 ， 这 就 是 终极 

算法 要 提供 的 东西 。 


以 网 上 约会 为 例 。 当 你 利用 Match.com、eHarmony 或 者 OkCupid 
(都 为 美国 知名 的 约会 和 社交 网 络 平台 ;”( 有 必要 的 话 ， 和 暂停 你 的 怀 
疑 ) 时 ， 你 的 目标 很 简单 一 一 找到 最 佳 的 可 能 约会 对 象 。 但 很 有 可 
能 ， 在 你 遇 到 真正 喜欢 的 人 之 前 会 费 很 大 劲 ， 可 能 还 会 有 几 次 令 人 失 
望 的 约会 。 一 个 闫 强 的 采 子 会 从 OkCupid 上 摘出 两 万 条 和 价 介 ， 做 他 目 
己 的 数据 挖 据 工作 ， 然 后 在 第 88 次 约会 中 找到 他 的 梦 中 女 即 ， 然 后 将 
他 这 上 段 漫长 的 旅程 告诉 《 连 线 》 杂 志 。 为 了 减少 约会 次 数 、 少 费 工 
夫 ， 你 的 两 大 工具 就 是 你 的 简介 和 你 对 推荐 对 象 的 反应 。 有 一 个 受 人 
欢迎 的 选择 就 是 说 谎 (比如 关于 你 的 年 龄 。 这 可 能 看 起 来 不 道德 ， 
更 不 用 说 当 你 的 对 象 知道 事实 后 ， 事 情 会 搞 砸 ， 但 这 里 有 一 个 转折 。 
对 网 上 约会 在 行 的 人 已 经 知道 ， 人 们 会 在 简介 中 的 年 龄 问题 上 撒谎 ， 
然后 根据 情况 进行 调整 ， 所 以 如 有 果 你 说 出 目 己 的 真实 年 龄 ， 实 际 上 束 
告诉 他 们 你 比 实际 年 龄 要 大 。 反 过 来 ， 进 行 配 对 的 学 习 算 法 认为 ， 和 
真正 选择 的 约会 对 象 相 比 ， 人 们 宁愿 选择 更 年 轻 的 人 人。 逻辑 上 的 下 一 
步 ， 葡 是 更 大 程度 地 度 报 他 们 的 年 龄 ， 最 终 解 释 这 个 属性 将 没有 意 
义 o 


对 于 所 有 关心 的 问题 ， 更 好 的 办 法 在 于 集中 于 特殊 、 非 比 寻 常 、 
预测 能 够 成 功 配 对 的 属性 上 。 在 这 种 意义 上 ， 它 们 会 挑 出 那些 你 喜欢 
但 不 是 所 有 人 都 喜欢 的 人 ， 因 此 竞争 也 束 没 有 那么 大 了 。 你 的 工作 

(也 包括 你 未 来 约会 对 象 的 工作 ) 束 是 提供 这 些 属性 ;， 媒 人 的 工作 就 
是 掌握 这 些 属性 ， 和 旧时 媒人 的 做 法 一 样 。 和 旧时 媒人 相 比 ， 
Match.com 的 算法 有 一 个 优势 ， 它 知道 更 多 的 人 ， 但 务 势 在 于 它 对 这 些 
人 的 了 解 没 那么 深 。 朴 素 学 习 算 法 ， 例 如 一 人 台 感 知 右 ， 会 满足 于 普 遇 
化 的 观点 ， 如 “绅士 都 喜欢 金发 玫 眼 的 女人 ”。 更 加 复杂 的 学 习 算 法 会 
发 现 诸 如 “对 音乐 有 男 类 部位 的 人 往往 适合 在 一 起 ”的 模式 。 如 果 爱 丽 
缘 和 鲍 过 都 喜欢 撮 昂 斯 ， 单 任 这 一 点 他 俩 很 难 配对 在 一 起 ;但 如 果 他 
们 都 喜欢 艾 伦 主教 ， 这 点 至 少 让 他 们 成 为 灵魂 伴侣 的 可 能 性 变 得 更 
大 。 如 果 他 们 都 是 一 个 乐队 的 粉丝 ， 但 学 习 算 法 不 知道 这 个 乐队 ， 那 
束 更 好 了 ， 但 只 有 一 种 关系 算法 ， 如 炼金 术 ， 才 能 不 费力 地 掌握 这 一 


点 。 学 习 算法 越 好 ， 就 越 值得 你 花 时 间 让 它 了 解 你 。 但 根据 经 验 ， 你 
想 让 自己 足够 与 众 不 同 ， 这 样 它 就 不 会 将 你 和 “普通 人 ”混淆 ( 记 住 第 
八 章 的 鲍 勃 : 伯 恩 斯 ) ， 但 也 别 太 与 众 不 同 ， 这 样 它 就 没 办 法 理解 你 
了 。 


网 上 约会 实际 上 是 一 个 有 点 难以 理解 的 例子 ， 因 为 化 学 反应 难以 
预测 。 两 个 在 约会 中 合 得 来 的 人 ， 可 能 最 后 会 相爱 ， 并 坚信 他 们 束 是 
天 生 一 对 。 但 如 果 他 们 最 初 话 不 投机 ， 可 能 会 觉得 对 方 烦人 ， 不 想 再 
见面 了 。 真 正 复 杂 的 学 习 算法 所 做 的 ， 葡 是 在 每 对 似乎 合理 的 一 对 情 
侣 之 间 进 行 1000 次 索 特 卡 将 模拟 ， 然 后 通过 那 部 分 结 采 还 不 错 的 约会 
对 这 些 情侣 进行 排名 。 简 而 言 之 ， 约 会 网 站 可 以 组 织 派 对 ， 并 邀请 那 
些 对 很 多 人 来 说 可 能 会 成 为 其 伴侣 的 人 ， 证 他 们 在 几 个 小 时 之 内 束 完 
成 需要 几 周 完成 的 事情 。 


对 于 我 们 那些 热衷 于 网 上 约会 的 人 来 说 ， 更 即时 有 用 的 办 法 就 古 
选择 记录 哪些 互动 ， 以 及 在 哪里 记录 。 如 采 你 不 想 让 亚马逊 对 你 的 圣 
诞 世 购物 品位 产生 疑惑 ， 请 在 其 他 网 站 上 进行 《对 不 起 了 ， 亚 马 
还 ) 。 如 果 你 在 家 看 不 同 种 类 的 视频 ， 为 了 工作 ， 在 YouTube 上 保留 
两 个 账号 ， 在 家 一 个 ， 工 作 时 一 个 ，YouTube 会 学 着 做 出 相应 的 推 
存 。 如 果 你 打算 看 一 些 一 般 不 会 感 兴 趣 的 视频 ， 束 和 完 退 出 账号 。 使 用 
谷歌 浏览 器 的 无 六 模式 ， 目 的 不 是 为 了 非法 浏览 (当然 ， 你 绝 不 会 这 
么 做 ) ， 而 是 因为 你 不 想 让 当前 搜索 影响 到 未 来 的 个 性 化 定制 。 在 网 
飞 上 ， 利 用 你 的 账 豆 来 为 不 同 的 人 添加 人 稍 介 ， 这 样 可 以 使 你 在 家 庭 电 
影 之 夜 免 于 R 级 片 〈 即 限制 性 影片 ) 推荐 。 如 有 果 你 不 喜欢 某 家 公司 ， 
可 以 点 击 它 的 广告 ,这样 不 仅 能 够 即时 花费 它 的 钱 ， 通 过 为 那些 不 太 
可 能 购买 产品 的 人 展示 广告 ， 还 可 以 教会 合 歌 来 再 次 浪费 它 的 钱 。 如 
果 你 有 非常 特殊 的 搜索 项 ， 想 让 谷歌 未 来 能 够 准确 回答 ， 那 么 花 点 时 
间 来 查阅 后 来 显示 结 采 的 页 面 ， 看 看 有 没有 相关 链接 ， 然 后 点 击 链 
接 。 较 为 普遍 的 是 ， 如 果 一 个 系统 不 断 问 你 推荐 错误 的 东西 ， 通 过 找 


到 并 点 击 多 个 准确 链接 的 方式 来 试 岁 调教 系统 ， 然 后 返回 来 看 看 它 是 
否 起 作用 了 。 


虽然 如 此 ， 但 这 可 能 是 繁重 的 工作 。 不 六 的 是 ， 所 有 这 些 所 阐明 
的 ， 吏 是 当今 你 和 学 习 算 法 之 间 的 通信 通道 是 多 么 狭 罕 。 你 应 该 有 能 

告诉 它 关 于 你 目 己 的 信息 ， 以 及 你 想 要 的 东西 有 哪些 ， 而 不 仅仅 是 
让 它 间 接 从 你 的 行为 中 学 习 。 不 仅 如 此 ， 你 应 该 有 能 力 检查 你 的 学 习 
算法 模型 ， 然 后 按照 期 户 对 它 进行 修正 。 如 果 学 习 算 法 认为 你 在 撤诉 
或 者 缺乏 目 我 认 知 ， 那 么 它 仍 会 决定 忽视 你 ， 但 至 少 这 一 次 可 以 考虑 
你 的 输入 信息 。 因 为 这 一 点 ， 模 型 需 以 人 类 能 理解 的 方式 呈现 ， 例 
如 ， 需 要 规则 集 而 不 是 神经 网 络 ， 而 且 除 了 原始 数据 ， 它 需要 接受 将 
一 般 陈 述 当 作 和 输入， 正如 炼金 术 一 样 。 所 有 这 些 让 我 们 想 知道 学 习 算 
法 能 有 多 好 的 一 个 关于 你 的 模型 ， 以 及 你 会 利用 这 个 模型 干什么 。 


数码 镜子 


化 点 时 间 来 考虑 你 记录 在 世界 上 所 有 计算 机 里 的 数据 : 你 的 邮 
箱 、 办 公文 档 、 文 本 ; 推 敌 、 脸 书 和 领 贡 账号 ;你 的 网 页 搜索 、 点 
击 、 下 载 、 购 买 ， 你 的 信用 卡 、 传 真 、 电 话 、 健 康 档案 ， 你 的 健康 追 
踩 锅 统计 ;你 的 汽车 微 处 理 亏 记录 下 的 区 驶 情况 ;你 朵 逛 时 被 手机 记 
好 下 来 的 信息 ; 你 拍 过 的 所 有 照片 ;监控 摄像 机 里 的 简短 片段 ， 你 的 
谷歌 眼镜 族 段 。 如 采 未 来 的 传记 作者 没有 什么 可 利用 ， 除 了 你 的 “数据 
排放 ”， 他 会 描写 出 怎样 的 一 个 你 ? 也 许 是 一 个 在 许多 方面 都 很 准确 、 
很 详细 的 你 ， 但 也 有 可 能 缺失 某 些 东西 的 你 。 为 什么 你 会 在 一 个 风 和 
日 丽 的 日 子 决定 改变 职业 生涯 ? 目 传 作者 提前 预测 到 这 一 点 了 吗 ? 那 
么 你 某 天 遇见 并 偷偷 难以 乐 怀 的 那个 人 呢 ? 那 位 作者 能 够 通过 发 现 的 
片段 返回 来 ， 然 后 说 “ 啊 ， 原 来 在 那儿 ” 吗 ? 


有 一 个 令 人 冷静 (也 许 是 安心 ) 的 想法 ， 束 是 当今 世界 上 没有 哪 
种 学 习 算 法 可 以 利用 所 有 这 些 数据 (甚至 美国 国家 安全 局 也 不 可 
以 ) 。 即 使 有 ， 该 算法 也 不 知道 如 何 将 数据 变 成 遏 真 的 你 。 假 设 你 带 
着 上 自己 的 所 有 数据 ， 然 后 把 数据 交 给 真实 的 未 来 终极 算法 会 怎样 呢 ? 
该 算法 已 经 包含 所 有 我 们 教 过 它 的 所 有 东西 。 它 会 学 习 关 于 你 的 一 个 
模型 ， 而 你 可 以 用 指 尖 张 动 那 个 模型 ， 并 把 它 放 在 口袋 里 携 市 ， 随 意 
对 它 进行 检查 ， 然 后 将 它 用 于 你 喜欢 的 东西 。 当 然 ， 这 对 内 省 法 来 
说 ， 有 是 一 个 很 好 的 工具 ， 束 像 在 镜子 里 看 目 己 一 样 。 它 也 会 是 一 面 数 
码 镜子 ， 不 仅 能 够 显示 你 的 外 表 ， 还 能 显示 所 有 关于 你 的 、 能 观察 到 
的 东西 一 一 一 面 棚 棚 如 生 ， 并 能 和 你 对 话 的 镜子 。 你 会 问 它 什么 问 
题 ? 你 可 能 不 会 喜欢 它 的 某 些 回答 ， 但 这 束 更 有 理由 来 好 好 考虑 这 些 
答案 ， 有 些 答案 可 能 会 给 你 新 的 想法 和 方向 。 你 的 终极 算法 模型 长 至 
可 以 帮 你 成 为 更 好 的 人 。 


除了 上 自我 提升 ， 也 许 第 一 件 你 想 让 目 己 的 模型 完成 的 事 就 是 代表 
你 与 世界 妥协 ， 使 它 在 网 络 空间 放松 下 来 ， 同 时 为 你 寻找 各 种 各 样 的 
事物 。 从 世界 上 所 有 的 书 中 ， 它 会 给 你 推荐 十 几 本 你 接 下 来 可 能 想 阅 
读 的 书 ， 见 解 比 亚马逊 能 想到 的 还 要 好 。 对 于 电影 、 音 乐 、 游 戏 、 妆 
服 、 电 子 产 品 来 说 ,道理 也 一 样 一 一 应 有 尺 有 。 它 可 以 让 你 的 冰箱 一 
直 处 于 竣 满 的 状态 ， 这 十 坚 无 疑问 的 。 它 可 以 对 你 的 文本 邮件 、 语 音 
邮件 、 脸 书 帖 子 、 推 特 信 息 进 行 过 滤 ， 而 且 在 合适 的 时 候 会 代表 你 回 
复 这 些 消 轧 。 它 还 会 为 你 处 理 生 活 中 的 所 有 人 小 烦恼 ， 比 如 查看 信用 卡 
账单 、 拒 绝 乱 收费 、 做 计划 、 更 新 订阅 、 填 写 纳税 申报 单 。 它 会 为 你 
的 疾病 找到 治疗 方法 ， 由 你 的 医生 来 管理 该 方法 ， 并 从 沃 尔 格林 公司 
预订 。 它 会 让 你 注意 到 有 意思 的 工作 机 会 、 提 议 度 假 胜地 、 建 议 你 该 
为 哪个 候选 人 投票 、 寻 找 江 在 的 约会 对 象 。 另 外 ， 你 和 约会 对 象 成 功 
配对 以 后 ， 它 会 与 你 约会 对 象 的 模型 合作 ， 为 你 们 两 人 挑选 彼此 都 喜 
欢 的 餐厅 。 这 时 事情 才 真 正 开 始 变 得 有 意思 起 来 。 


充满 模型 的 社会 


在 这 个 快速 接近 的 未 来 社会 中 ， 你 不 是 唯一 拥有 “数码 另 一 半 ?” 的 
人 ( 男 一 半 会 24 小 时 按照 你 的 要 求 办 事 ) ， 每 个 人 都 会 有 自己 的 详细 
模型 ， 这 些 模型 会 一 直 互 相对 话 。 如 采 你 正在 找 工 作 ， 而 X 公 司 正在 
招聘 ， 它 的 模型 会 对 你 的 模型 进行 面试 。 这 很 像 一 场 真 实 、 映 临 其 境 
的 面试 一 一 你 的 模型 最 好 还 是 别 主 动 提供 你 的 负面 信息 等 一 一 但 这 个 
过 程 只 会 花 不 到 1 秒 的 时 间 。 你 在 未 来 领 瑞 账号 上 点 击 “ 找 工作 ”， 会 马 
上 进行 宇宙 中 所 有 公司 的 工作 面试 ， 虽 然 远 ， 但 与 你 的 参数 (专业 、 
地 点 、 薪 资 等 ) 匹配 。 领 英 会 马上 反馈 最 佳 公 司 列表 ， 你 可 以 从 中 挑 
选 想 进行 细 谈 的 公司 。 约 会 也 是 一 样 ， 你 的 模型 会 进行 数 百 万 次 约 
会 ， 所 以 你 束 不 必 了 。 星 期 入， 你 会 在 OkCupid 组 织 的 派对 上 认识 最 
佳 约 会 人 选 ， 你 知道 目 己 也 十 对 方 的 最 佳 约会 人 选 一 一 当然 ， 你 也 知 
道 对 方 其 他 的 约会 人 选 也 在 屋 里 。 这 肯定 是 一 个 有 意思 的 夜晚 。 


在 终极 算法 的 世界 里 , “我 的 人 会 联系 你 的 人 ”会 变 成 “我 的 程序 会 
联系 你 的 程序 "。 每 个 人 都 会 有 一 个 机 各 人 随从 ， 在 这 个 世界 游 才 有 余 
地 存在 。 交 易 完 成 了 、 条 款 谈 妥 了 、 安 排 做 好 了 ， 这 些 都 会 在 你 举 起 
手指 头 之 前 守成。 今天， 医药 公司 会 锁定 你 的 一 生 ， 因 为 它 决定 给 你 
开 什 么 药 ， 明 天 ， 你 消费 的 每 种 产品 或 者 服务 的 经 销 商 会 定位 你 的 模 
型 ， 因 为 模型 会 为 你 沛 先 。 它 们 的 机 絮 人 的 任务 束 是 让 你 的 机 右 人 来 
购买 。 你 的 机 器 人 的 工作 避 ® 古 看 罕 它 们 的 口号 ， 殊 像 你 看 罕 电 视 广告 
一 样 ， 但 会 比 你 看 得 更 细致 ， 你 绝 不 会 有 时 间 和 耐心 来 完成 。 买 车 之 
前 ， 你 的 数码 男 一 半 会 浏览 所 有 的 参数 并 和 制造 商讨 论 这 些 参数 ， 然 
后 癸 完 世 界 上 每 个 人 对 那 辆 车 及 其 奉 代 品 的 评价 。 你 的 数码 另 一 半 束 
像 指 引 你 生活 的 力量 一 样 ， 它 会 去 你 想 去 的 地 方 ， 但 让 你 花费 的 时 间 
比较 少 。 这 并 不 意味 大 你 最 终 会 陷入 “过 滤 泡 泡 ” 的 困境 中 ， 看 到 的 只 
征 你 觉得 可 靠 并 喜欢 的 东西 ， 意 料 之 外 的 选择 则 排除 在 外 ， 你 的 数码 


另 一 半 能 更 好 地 了 人 解 这 一 点 ， 其 特点 包括 对 机 遇 留 有 余地 、 让 你 尽 享 
新 体验 、 寻 找 发 现 珍 宝 的 运气 。 


即使 会 更 有 意思 ， 但 当 你 找到 汽车 、 房 子 、 医 生 或 者 工作 之 后 ， 
这 个 过 程 并 不 会 结束 。 你 的 数码 男 一 半 会 继续 从 经 历 中 学 习 东 西 ， 束 
像 你 一 样 。 它 弄 清 楚 什 么 能 起 作用 、 什 么 不 能 ， 不 论 是 在 工作 面试 、 
约会 ， 还 是 在 寻找 房产 的 过 程 中 。 它 代表 你 和 人 们 、 组 织 进行 互动 ， 
并 学 习 关 于 它们 的 东西 ， 然 后 从 你 与 他 们 的 真实 互动 中 掌握 技能 (这 
一 点 更 重要 ) 。 它 预测 爱丽 丝 会 是 你 很 棒 的 约会 对 象 ， 但 你 时 间 不 太 
方便 ， 因 此 它 会 假设 可 能 的 原因 ， 并 在 你 的 下 一 轮 约 会 中 进行 验证 。 
它 会 把 最 重要 的 发 现 与 你 分 享 〈“ 你 觉得 自己 喜欢 X， 但 实际 上 你 更 倾 
向 于 Y”) ， 将 你 各 种 各 样 的 住 酒 店 经 历 和 这 些 酒店 在 “ 猫 途 
座 ”(TripAdvisor) 上 的 评价 相 比 较 ， 它 会 弄 清楚 哪些 小 道 消 息 是 真 的 
并 在 以 后 将 其 找 出 。 它 不 仅 掌握 网 上 哪个 商家 值得 信赖 ， 还 要 学 会 如 
何 解码 那些 不 那么 值得 信赖 的 商家 所 说 的 话 。 你 的 数码 男 一 半 有 一 个 
世界 模型 一 一 不 只 是 一 般 的 世界 ， 还 指 与 你 产生 关联 的 世界 。 当 然 ， 
其 他 所 有 人 也 会 有 目 己 不 断 演进 的 世界 模型 。 一 段 相 互 关系 中 的 每 一 
方 都 会 问世 界 模型 学 习 ， 并 将 其 学 到 的 东西 运用 到 下 一 段 相 互 关 系 
中 。 你 有 每 个 和 你 有 过 相互 关系 的 人 以 及 组 织 的 模型 ， 而 他 们 也 会 有 
你 的 模型 。 随 痢 模 型 的 改善 ， 它 们 之 间 的 相互 关系 丈 会 变 得 越 来 越 像 
你 在 真实 世界 中 的 相互 关系 一 样 一 一 除了 高 出 儿 百 万 倍 的 速度 以 及 存 
在 于 硅 族 中 之 外 。 未 来 的 网 络 空间 会 是 一 个 巨大 的 平行 世界 ， 只 会 选 
择 最 有 布 户 的 东西 在 真实 世界 中 进行 试验 ， 它 束 像 一 种 新 的 全 球 性 总 
识 和 人 类 里 份 。 


分 孚 与 否 ? 方式 、 地 点 如 何 ? 


当然 ， 你 独 目 一 人 了 解 这 个 世界 会 比较 缓慢 ， 即 使 你 的 数码 男 一 
半 了 解 世界 的 速度 会 比 实 实在 在 的 你 高 出 数量 级 的 倍数 。 如 采 其 他 人 
了 解 你 的 速度 比 你 了 解 他 们 的 速度 要 快 ， 那 么 你 束 会 陷入 麻烦 。 解 决 
办 法 束 古 要 分 至 。100 万 个 人 了 解 一 家 公司 或 者 一 种 产品 的 速度 会 比 单 
个 人 的 速度 快 很 多 ， 只 要 他 们 能 够 集中 各 目的 经 历 。 但 你 应 该 和 谁 分 
享 数据 ? 这 也 许 是 21 世 纪 最 重要 的 问题 了 。 


当今 你 的 数据 可 以 分 成 四 种 : 你 和 所 有 人 分 享 的 数据 ， 你 和 朋友 
或 者 同事 分 享 的 数据 ， 你 和 各 种 公司 (不论 是 否 有 意 ) 分 享 的 数据 ， 
以 及 你 不 与 别人 分 享 的 数据 。 第 一 种 数据 包括 Yelp (美国 最 大 的 点 评 
网 站 ) 、 亚 马 进 、 猫 途 磨 上 的 评论 、 易 趣 网 的 反馈 评分 、 领 贡 的 简 
历 、 博 客 、 推 文 等 。 这 类 数据 价值 巨大 ， 是 四 类 数据 中 辣 题 最 少 的 一 
类 。 你 真 的 想 让 每 个 人 都 能 用 到 这 些 数据 ， 每 个 人 也 会 从 中 受益 。 唯 
一 的 问题 在 于 ， 掌 握 这 些 数据 的 公司 不 一 定 会 人 多 许 对 它们 进行 大 量 下 
载 ， 以 便 用 于 构建 模型 。 它 们 应 该 允许 下 载 行 为 。 时 下 你 可 以 去 猫 途 
鹰 ， 碍 看 你 正在 考虑 入 住 的 指定 酒店 的 评论 和 星 级 评分 ， 但 如 采 要 得 
看 酒店 总 体 上 是 好 还 是 坏 的 模型 呢 ， 而 通过 该 模型 ， 你 可 以 对 当前 有 
极 少 可 靠 评论 的 酒店 进行 评分 ? 猫 途 座 可 以 掌握 该 模型 ,但 如 采 你 想 
要 一 个 决定 你 对 酒店 感觉 好 坏 的 模型 呢 ? 这 整 需 要 关于 你 的 ， 但 你 不 
想 和 独 途 座 分 享 的 数据 。 你 想 要 的 ， 驶 是 一 个 可 信赖 的 、 能 将 两 类 数 
据 结合 起 来 ， 并 能 给 你 结果 的 一 方 。 


第 一 类 数据 应 该 不 会 存在 问题 ， 但 实际 上 并 非 如 此 ， 因 为 它 与 第 
三 类 数据 重合 了 。 你 在 脸 书 上 与 朋友 分 至 更 新 、 照 片 ， 你 的 朋友 也 和 
你 分 至， 但 每 个 人 都 会 利用 脸 书 来 分 译 他 们 的 更 新 和 照片 。 辛 运 的 脸 
书 ， 它 有 10 亿 个 朋友 。 渐 渐 地 ， 它 对 于 世界 的 了 解 比 任 何人 都 要 多 。 
如 有 果 它 有 更 好 的 算法 ， 束 能 了 解 得 更 多 ， 而 这 些 算法 每 天 都 会 进步 ， 
这 对 我 们 数据 科学 家 来 说 征 一 种 恩惠 。 作 为 回报 ， 它 会 为 你 的 分 享 提 
供 基 础 结构 ， 这 束 是 你 使 用 脸 书 所 做 的 交易 。 随 着 学 习 算 法 的 改善 ， 
它 由 数据 产生 的 价值 会 越 来 越 大 ， 有 些 价 值 会 以 更 相关 的 广告 、 更 优 


质 的 服务 的 形式 回馈 你 。 唯 一 的 问题 在 于 ， 脸 书 也 可 以 随意 使 用 你 不 
感 兴趣 的 数据 和 模型 ， 你 却 无 法 阻止 它 。 


这 个 问题 会 伴随 你 与 公司 分 至 的 数据 一 起 突然 彻 原 出 现 ， 包 括 如 
今 你 在 线 上 、 线 下 做 的 许多 事情 。 也 许 你 没 注意 到 ， 其 中 会 有 一 个 收 
集 你 的 数据 的 疯狂 比赛 。 每 个 人 部 喜欢 你 的 数据 ， 这 也 难怪 ， 它 们 是 
通 往 你 的 世界 、 你 的 钱包 、 你 的 投票 甚至 你 的 心灵 的 大 | 门 。 但 是 每 个 
人 只 能 拥有 它 的 一 小 部 分 ， 谷歌 掌握 你 搜索 的 内 容 ， 亚 马 进 知道 你 网 
购 的 东西 ， 美 国电 话 电报 公司 会 看 到 你 的 通话 记录 ， 平 采 知 道 你 下 载 
的 音乐 ， 西 夫 韦 懂得 你 购买 的 杂货 ， 美 国 第 一 资本 投资 国际 集团 了 解 
你 的 信用 卡 交 易 记 录 。 诸 如 安 客 诚 (Acxiom) 之 类 的 公司 会 整理 并 销 
售 关 于 你 的 数据 ， 但 如 果 你 可 以 对 其 进行 检查 (对 于 安 客 诚 的 情况 ， 
你 可 以 在 aboutthedata.com 检 查 ) ， 数 据 并 不 多 ， 而 且 有 些 还 是 错误 
的 。 没 有 人 能 够 了 解 到 完 完整 整 的 你 。 这 有 好 处 ， 也 有 坏处 。 有 好 处 
苹 因 为 如 末 某 人 做 到 了 ， 他 束 会 掌握 很 大 的 权力 ;， 有 坏处 是 因为 只 
事实 是 那样 的 ， 就 不 会 有 你 的 360° 模 型 了 。 你 真正 想 要 的 是 数码 的 
你 ， 以 及 你 是 唯一 拥有 者 ， 其 他 人 只 有 根据 你 的 意愿 才能 获得 东西 ， 
最 后 一 类 数据 〈 你 不 想 分 享 的 数据 ) 也 存在 一 个 问题 ， 即 也 许 你 应 该 
分 享 它 。 也 许 你 没 想 到 要 那么 做 ， 也 许 做 起 来 没 那 么 容易 ， 或 者 也 许 
你 只 是 不 想 那 么 做 。 如 果 是 最 后 一 种 情况 ， 你 应 该 考虑 道德 上 是 否 
义务 来 进行 分 京 。 我 们 见 过 的 一 个 例子 束 是 癌症 病人 ， 他 们 可 以 通过 
分 享 肿瘤 的 基因 组 和 治疗 史 来 为 治愈 癌症 做 贡献 。 分 享 的 好 处 远 远 不 
止 这 点 。 所 有 关于 社会 和 政策 的 各 种 问题 也 许 都 可 以 通过 了 解 我 们 每 
天 产生 的 数据 来 得 到 解决 。 社 会 科学 正 进入 一 个 黄金 时 代 一 一 只 要 数 
据 面 问 研 究 人 员 、 政 策 制 定 者 、 老 百姓 。 这 并 不 意味 着 让 别人 宁 榨 你 
的 私人 生活 ， 而 是 说 要 让 他 们 看 到 已 经 掌握 的 模型 ， 而 这 个 模型 应 该 
只 包含 统 计 信息 。 因 此 ， 在 你 和 他 们 之 间 ， 需 要 一 位 可 靠 的 数据 经 纪 
人 ， 保 证 你 的 数据 不 会 被 滥用 ， 也 没有 哪个 免费 使 用 者 会 在 不 分 宇 净 
据 的 情况 下 就 译 受 到 好 处 。 


总 之 ， 所 有 四 类 数据 的 分 译 都 有 问题 。 这 些 问 题 有 一 个 共同 的 解 
决 办 法 : 新 型 公司 与 你 的 数据 的 关系 ， 吏 像 银行 和 你 的 钱 的 关系 一 
样 。 银 行 不 会 偷 你 的 钱 (有 也 是 极 少 数 )。 它 们 应 该 明智 地 对 它 进行 
投资 ， 而 且 你 的 存款 已 经 过 FDIC (联邦 存款 保险 公司 ) 承保 。 时 下 有 
许多 公司 所 出 要 加 强 你 在 云 盘 某 处 的 数据 ， 但 这 些 数据 与 你 的 私人 数 
据 银 行 还 有 很 大 差别 。 如 采 它 们 是 云 提 供 商 ， 则 会 把 你 限制 起 来 
一 项 大 禁忌 (想象 一 下 ， 你 把 钱 存在 美国 银行 ， 而 且 不 知道 你 是 否 可 
以 彻底 把 钱 转账 到 富国 银行 ) 。 一 些 新 创 公 司 提出 要 贮藏 你 的 数据 ， 
并 把 数据 交 给 广告 商 ， 以 换取 折扣 ; 但 对 我 来 说 ， 这 样 做 没有 抓 住 重 
点 。 有时， 你 想 免费 为 广告 商 提供 信息 ， 因 为 这 么 做 符合 你 的 利 苍 ; 
有 时 ， 你 一 点 也 不 想 提供 ， 而 “什么 时 候 分 译 什 么 数据 ”也 是 你 的 民 好 
模型 才能 解决 的 问题 。 


我 正在 想象 的 那 类 公司 会 做 以 下 几 件 事 来 赚 取 订阅 费 。 它 会 对 你 
的 网 上 互动 进行 匿名 人 处理 ， 并 通过 服务 右 确 定 这 些 互 动 路 线 ， 然 后 通 
过 其 他 用 户 将 这 些 互 动 集合 起 来 。 它 会 把 你 这 鞋子 所 有 的 数据 储存 在 
一 个 地 方 一 一 包括 你 每 天 24 小 时 的 谷歌 眼镜 视频 流 (如 果 你 有 ) 。 它 
会 对 关于 你 和 你 的 世界 的 完整 模型 进行 学 习 ， 并 对 其 进行 持续 更 新 。 
它 会 代表 你 使 用 模型 ， 并 一 直 做 你 要 做 的 事 ， 发 挥 模型 的 最 大 能 
公司 对 于 你 的 基本 承诺 是 ， 你 的 数据 和 模型 绝 不 会 在 损害 你 利益 的 情 
况 下 被 使 用 。 这 样 的 保证 真 的 过 于 简单 ， 毕 竟 你 本 吴 殉 无 法 保证 你 绝 
`\ 会 做 损害 目 己 利益 的 事 。 但 公司 的 存在 束 取 决 于 这 样 的 保证 ， 束 像 
银行 的 存在 取决 于 它 保 证 不 会 弄 丢 你 的 钱 一 样 ， 因 此 你 应 该 信任 这 家 
公司 ， 吏 像 你 信任 你 的 银行 一 样 。 


这 样 的 一 家 公司 会 很 快 成 为 世界 上 最 有 价值 的 公司 之 一 。 驶 像 
《大 西洋 月 刊 》 的 亚 历 殉 西 斯 :马德里 加 尔 指 出 的 那样 ， 当 今 你 的 简介 
也 许 能 通过 一 分 钱 或 者 更 少 的 钱 来 天 到 ， 但 一 个 用 户 对 于 互联 网 广告 
业 的 价值 可 能 是 每 年 1200 美 元 ， 合 歌 掌 握 的 你 的 那 部 分 信息 价值 约 20 
美元 ， 脸 书 的 是 5 美元 ， 等 等 。 除 此 之 外 ， 还 没有 谁 能 全 部 拥有 各 部 分 


的 数据 ， 而 且 完 整 的 数据 比 各 部 分 数据 的 总 和 要 多 一 一 基于 你 所 有 数 
据 的 模型 ， 要 比 基 于 1000 个 部 分 数据 的 1000 个 模型 要 好 很 多 一 一 而 我 
们 正在 以 每 年 轻易 超过 1 万 亿 的 数据 作为 目标 ， 相 当 于 美国 这 样 的 经 济 
体 。 利 用 这 种 数据 创建 一 家 《财富 》500 强 公司 并 不 会 需要 很 多 费用 。 
如 有 果 你 想 接受 挑战 并 最 后 成 为 一 名 亿 万 是 伟 ， 那 么 记 住 你 首先 是 在 什 
么 地 方 得 到 这 个 想法 的 。 


当然 ， 当 前 的 一 些 公司 想 拥 有 数码 的 你 ， 合 歌 束 古 其 中 一 个 。 谢 
尔 兰 ' 布 林 说 : “我 们 想 让 谷歌 成 为 你 大 脑 的 第 三 个 组 成 部 分 。” 谷 歌 的 
一 些 收购 和 用 户 的 数据 流 补 充 公司 的 数据 库 的 好 坏 表 现 不 无 和 关系。 但 
征 ， 虽 然 诸如 谷歌 和 脸 书 之 类 的 公司 处 于 领先 地 位 ， 但 它们 并 不 适合 
作为 你 的 数码 冢 园 ， 因 为 它们 存在 利益 冲突 。 它 们 通过 广告 分 析 来 谋 
生 ， 因 此 得 权衡 你 的 利益 和 广告 商 的 利益 。 你 不 会 允许 目 己 大 脑 的 第 
一 或 者 第 二 组 成 部 分 各 有 忠心 ， 第 三 组 成 部 分 就 更 别提 了 ? 


如 采 你 的 模型 看 起 来 像 罪 犯 的 模型 ， 也 许 会 发 生意 想不到 的 事 
情 ， 比 如 政府 可 能 会 传讯 你 的 数据 ， 甚 至 预防 性 地 监禁 你 ， 有 一 后 
《少数 派 报 告 》 的 风格 。 为 了 抢先 一 步 ， 你 的 数据 公司 可 以 对 一 切 加 
密 ， 让 你 来 保管 钥 古 《如 今 你 甚至 不 用 解密 数据 就 可 以 计算 加 密 数 
据 ) 。 你 也 可 以 把 它 保存 在 家 里 的 硬盘 中 ， 公 司 会 把 软件 租 给 你 。 


如 果 不 喜 欢 盘 利 实 体 拿 着 通 往 你 王国 的 钥 是 ， 可 以 加 入 一 个 数据 
联盟 (如 果 在 你 的 网 络 区 域 没有 联盟 ， 可 以 考虑 局 动 一 个 ) 。20 世 纪 
需要 工会 来 协调 工人 与 老板 之 则 的 权利 ，21 世 纪 出 于 同样 的 原因 也 需 
要 数据 联盟 。 公 司 和 个 人 相 比 ， 收 集 和 使 用 数据 的 能 力 要 强大 很 多 ， 
这 导致 了 权利 上 的 不 平衡 。 数 据 越 有 价值 ， 束 越 能 从 中 掌握 更 好 、 更 
有 用 的 模型 ， 不 对 称 也 束 越 挛 重 。 数 据 联盟 让 其 成 员 与 公司 吏 其 数据 
使 用 进行 平等 交易 。 也 许 工会 能 够 使 活动 开展 起 来 ， 并 巩固 其 成 员 吴 
份 ， 方 法 吏 是 为 其 成 员 开 局 数据 联盟 。 但 工会 生根 据 职业 和 地 理 位 置 
组 织 起 来 的 ， 数 据 联盟 吏 比 较 灵 活 一 一 加 入 和 你 有 很 多 共同 点 的 人 


群 ， 那 样 掌 握 的 模型 会 更 有 用 。 请 注意 ， 加 入 数据 联盟 并 不 意味 看 可 
以 让 其 他 成 员 看 到 你 的 数据 ， 这 仅仅 表示 让 每 个 人 都 能 利用 通过 共计 
数据 掌握 的 模型 。 你 的 数据 对 世界 的 影响 力 和 你 的 投票 一 样 ， 或 者 会 
更 大 ， 因 为 你 只 会 在 选举 日 去 投票 处 投票 ， 其 他 时 候 ， 你 的 数据 现 是 
你 的 选票 。 站 起 来 ， 表 明 你 的 立场 ! 


目前 为 止 ， 我 还 没有 说 到 “隐私 "这 个 词 ， 这 并 非 意 外 。 隐 私 只 是 
数据 分 至 更 大 问题 的 一 方面 ， 如 有 果 我 们 在 损害 整体 的 情况 下 来 关注 
它 ， 束 像 当今 争论 大 部 分 所 关注 的 那样 ， 那 么 束 会 有 得 出 错误 结论 的 
风险 。 例 如 ， 除 了 最 初 的 目的 ， 法 律 茜 止 将 数据 用 于 其 他 用 途 ， 这 束 
显得 很 缺乏 远见 《《 苹 果 橘 子 经 济 学 》 中 没有 哪个 章节 是 依据 该 项 法 
律 规定 写 的 ) 。 当 人 们 利用 隐私 来 换取 其 他 好 处 时 ， 正 如 当 在 网 上 填 
写 简 介 时 ， 隐 私 表现 出 的 隐 含 价值 比 你 问 他 们 “你 在 意 你 的 隐私 吗 ” 这 
种 抽象 问题 的 价值 要 低 得 多 。 但 依据 后 者 ， 隐 私 之 争 往 往 更 容易 陷入 
圈套 。 欧 盟 法 院 发 布 命令 ， 人 们 有 权利 被 还 记 ， 但 也 有 权利 来 记忆 ， 
无 论 是 用 他 们 的 神经 元 还 是 硬盘 。 公 司 也 一 样 ， 在 一 定 程 度 上 ， 用 
户 、 数 据 收集 者 、 广 告 商 的 利 花旦 一 致 的 。 当 费 注意 力 对 谁 都 没有 好 
处 ， 数 据 越 好 ， 产 品 也 会 越 好 。 隐 私 并 不 是 一 场 去 和 游戏 ， 虽 然 有 时 
它 经 党 被 当 作 零 和 游戏 。 


掌握 数据 的 你 和 数据 联盟 的 公司 的 样子 ， 对 我 来 说， 看 起 来 束 像 
征 在 未 来 社会 数据 变 得 成 熟 一 样 。 我 们 是 否 能 到 达 那 里 有 待人 研究。 当 
下 ， 多 数 人 没有 意识 到 有 多 少 关 于 他 们 的 数据 正在 被 收集 ， 以 及 洪 在 
的 代价 和 利益 是 什么 。 各 家 公司 满足 于 继续 神秘 地 完成 这 件 事 ， 因 为 
担心 引发 谨 责 。 但 谴责 述 早 会 发 生 ， 在 后 续 的 争论 中 ， 会 制定 更 加 严 
奇 的 法 律 ， 节 后 对 谁 都 没有 好 处 。 最 好 让 人 们 现在 树立 意识 ， 选 择 该 
分 至 什么 、 不 该 分 译 什 么 ， 以 及 如 何 、 在 哪里 分 至 。 


神经 网 络 抢 了 我 的 工作 


你 的 工作 会 在 多 大 程度 上 用 到 你 的 大 脑 ? 用 得 越 多 ， 你 就 越 安 
全 。 在 人 工 智能 早期 ， 人 们 普遍 认为 ， 计 算 机 取代 白领 前 会 先 取 代 蓝 
领 ， 因 为 白领 工作 更 费 脑力 ， 结 果 却 并 非 如 此 。 一 方面 ， 机 器 人 组 装 
汽车 ， 但 它们 没有 代替 建筑 工人 ; 另 一 方面 ， 机 器 学 习 算法 已 经 取代 
信用 分 析 员 和 直销 商 。 其 实 ， 对 于 机 器 来 说 ， 评 估 信 用 申请 表 比 走 在 
建筑 工地 不 被 绊 倒 要 简单 ， 尽 管 对 于 人 类 来 说 恰恰 相反 。 一 个 普遍 的 
主题 是 ， 狭 义 定义 的 任务 很 容易 通过 数据 来 完成 ， 但 那些 需要 技能 二 
知识 广泛 结合 的 任务 却 不 能 。 你 大 脑 的 大 部 分 都 主管 视觉 和 运动 ， 这 
就 意味 着 到 处 走 走 比 表面 看 起 来 要 复杂 得 多 。 我 们 之 所 以 觉得 很 简 
单 ， 是 因为 “到 处 走 走 ”经 过 进化 已 经 练习 得 近乎 完美 ， 所 以 很 多 时 候 
是 在 潜意识 中 进行 的 。 和 叙事 科学 (Narrative Science) 这 家 公司 有 一 种 
人 工 智能 系统 ， 可 以 写 出 很 好 的 棱 球 比赛 总 结 ， 却 写 不 好 小 说 ， 因 为 
(根据 乔治 : 威 尔 的 观点 ) 生活 的 内 容 要 比 棱 球赛 多 很 多 。 语 音 识别 对 
计算 机 来 说 比较 困难 ， 因 为 要 填补 空白 存在 困难 。 字 面 上 说 ， 就 是 那 
些 说 话 人 平时 会 省 略 的 发 音 〈 当 你 不 知道 那个 人 在 讨论 什么 时 ) 。 算 
法 可 以 预测 股票 波动 ， 但 不 清楚 如 何 将 股票 波动 与 政治 联系 起 来 。 一 
项 任务 需要 的 背景 信息 越 多 ， 计 算 机 能 迅速 完成 它 的 可 能 性 就 越 小 。 
常识 之 所 以 重要 ， 不 仅 是 因为 妈妈 教会 了 你 ， 还 因为 计算 机 里 面 没有 


这 些 信息 。 


防止 丢掉 工作 的 最 佳 办 法 就 古 你 目 己 对 它 进行 目 动 化 ， 这 样 束 可 
以 把 时 间 用 在 你 之 前 顾及 不 到 、 计 算 机 近期 地 无 法 做 到 的 所 有 部 分 
(如 果 没 有 什么 任务 无 法 完成 ， 那 么 就 要 在 行业 保持 领先 地 位 ， 现 在 
就 去 找 一 份 新 工作 ) 。 如 果 计 算 机 已 经 学 会 完成 你 的 工作 ， 不 要 试图 
与 它 竞争 ， 而 要 利用 它 。H&R Blook 公 司 (美国 最 大 的 报税 服务 商 ) 
仍 在 运营 ， 但 报税 人 的 工作 却 没 有 以 前 那么 枯燥 了 ， 因 为 现在 计算 机 
承担 了 大 部 分 枯燥 的 工作 (好 了 ， 也 许 这 不 是 最 佳 例 子 ， 因 为 免税 代 
码 的 指数 级 增长 ， 征 为 数 不 多 的 能 够 与 计算 能 力 指数 级 增长 相 抗衡 的 
东西 ) 。 把 大 数据 看 作 你 知觉 的 延伸 ， 把 学 习 算 法 看 作 你 大 脑 的 扩 
展 。 当 下 最 佳 棋 手 是 所 谓 的 人 马 怪 〈 半 人 、 半 程序 ) 。 在 其 他 许多 职 


业 中 情况 也 是 如 此 ， 从 证 券 分 析 师 到 棱 球 球 探 。 这 并 不 是 人 类 与 机 器 
的 对 抗 ， 而 是 有 机 器 的 人 和 没有 机 右 的 人 之 间 的 对 抗 。 数 据 和 直觉 谍 
像 马 和 骑手 ， 而 你 不 会 试图 超过 一 匹 马 ， 你 在 芍 驭 它 。 


随 大 技术 的 进步 ， 人 和 机 夯 更 加 密切 的 结合 体 束 形成 了 : 你 锯 
了 ，Yelp 会 推荐 一 些 好 吃 的 餐厅 ; GPS 会 指引 你 方向 ;你 开车 ， 汽 车 
电子 会 进行 低 水 平 控制 。 我 们 现在 都 已 经 是 半 机 器 人 人 了。 真正 的 目 动 
化 指 的 不 是 它 代替 了 什么 ， 而 是 它 增强 了 什么 能 力 。 一 些 行业 消失 
了 ， 但 许多 新 的 行业 诞生 了 。 最 重要 的 是 ， 目 动 化 使 各 类 事情 成 为 可 
能 ， 这 些 事情 如 果 由 人 类 完成 ， 将 要 付出 很 多 代价 。ATM 机 (自动 柜 
员 机 ) 代替 了 一 些 银行 员工 ， 但 主要 好 处 是 它们 让 我 们 随时 随地 都 可 
以 取 钱 。 如 果 像 素 要 通过 人 类 动画 师 来 一 次 只 为 一 个 上 色 ， 那 么 殉 不 
会 有 《玩具 总 动员 》 和 视频 游戏 了 。 


尽管 如 此 ， 我 们 可 以 询问 目 己 最 终 是 否 会 彻底 完成 人 类 的 工作 。 
我 觉得 不 会 。 即 使 这 一 天 到 来 了 〈 它 不 会 很 快 就 到 ) ， 且 计算 机 和 机 
器 人 都 可 以 把 所 有 事情 做 得 更 好 ， 但 仍 有 一 些 工 作 会 留 给 一 些 人 。 机 
咒 人 也 许可 以 很 好 地 模仿 酒 保 ， 甚 至 可 与 客人 内 聊 ， 但 老 顾 客 仍 然 会 
更 喜欢 一 个 他 们 认 知 的 人 类 酒 傈 ， 仅 仅 因 为 他 们 束 是 人 类 。 拥 有 人 类 
服务 员 的 餐厅 会 有 和 额外 标志 ， 束 像 手工 制品 那样 。 人 类 还 是 会 去 剧 
院 、 莉 马 、 航 行 ， 虽 然 我 们 已 经 有 电影 、 汽 车 、 摩 托 艇 了 。 更 重要 的 
是 ,一些 职业 真 的 无 法 兰 代 ， 因 为 它们 的 工作 需要 一 种 计算 机 和 机 器 
人 在 定义 上 无 法 拥有 的 东西 : 人 类 经 历 。 所 谓 人 类 经 历 ， 指 的 并 不 是 
人 际 互 动工 作 ， 因 为 人 际 互动 要 造假 也 不 难 ， 比 如 机 器 人 宠物 的 成 
功 。 我 指 的 是 人 文科 学 ， 准 确 地 说 ， 其 领域 包含 一 切 没有 人 类 体验 整 
无 法 理解 的 东西 。 我 们 担心 人 文科 学 正 呈 死亡 坚 旋 下 降 趋 势 ， 一 旦 其 
他 行业 实现 目 动 化 了 ， 它 束 会 东山 再 起 。 通 过 机 硕 低 成 本 完成 的 事情 
越 多 ， 人 类 学 家 的 页 献 束 越 有 价值 。 


相反 ， 让 人 伤感 的 是 ， 科 学 家 的 长 远 前 景 并 不 是 最 光明 的 。 示 
来 ， 唯 一 的 科学 家 很 有 可 能 就 古 计算 机 科学 家 ， 即 从 事 科 学 人 研究 的 计 
算 机 科学 家 。 之 前 被 人 称 为 “科学 家 ”的 人 ( 像 我 一 样 ) 会 将 其 毕生 页 
献 给 理解 计算 机 所 做 出 的 科学 进步 。 他 们 的 幸福 感 不 会 比 以 前 明显 降 
低 ， 毕 竟 科 学 对 他 们 来 说 一 直 十 一 种 业余 爱好 。 对 于 有 技术 头脑 的 人 
来 说 很 重要 的 一 项 工作 会 被 留 下 来 一 一 留意 计算 机 。 实 际 上 ， 这 需要 
的 不 仅 是 工程 师 ， 基 本 上 ， 这 可 能 是 所 有 人 类 的 全 职工 作 ， 即 和 弄 明 日 
我 们 想 从 机 器 那里 得 到 什么 ， 并 保证 我 们 会 得 到 这 些 东西 一 一 本 章 后 


部 分 会 详细 谈 到 。 


同时 ， 随 着 目 动 化 与 非 目 动 化 工作 跨越 经 济 领域 ， 我 们 可 能 会 看 
到 失业 率 渐 渐 增长 ， 越 来 越 多 的 行业 薪水 下 探 ， 无 法 目 动 化 的 行业 越 
来 越 少 ， 但 报酬 却 越 来 越 高 当然， 这 种 情况 已 经 发 生 ， 但 路 还 很 
长 。 过 渡 期 会 充满 骚乱 但 多 亏 了 民主 ， 它 会 有 一 个 圆满 的 结局 ( 紧 
握 你 的 选票 ， 它 可 能 会 成 为 你 最 有 价值 的 东西 ) 。 当 失业 率 上 升 超过 
50% 时 ， 甚 至 小 于 这 一 数字 时 ， 关 于 重新 分 布 的 态度 会 彻底 改变 。 一 
批 刚 失业 的 大 部 分 人 会 把 选票 投 给 慷慨 的 终 号 失业 救济 金 ， 以 及 用 于 
资助 他 们 的 高 昂 税 收 。 这 些 做 法 并 不 会 耗 尽 资 源 ， 因 为 机 器 会 进行 必 
要 的 生产 。 最 终 ， 一 开始 我 们 会 讨论 束 业 率 而 不 是 失业 率 ， 而 降低 失 
业 率 将 被 看 作 进 步 的 标志 (“美国 正在 倒退 ， 我 们 的 就 业 率 仍然 保持 在 
23%”) 。 失 业 津 贴 将 被 发 放 给 每 个 人 的 基本 收入 代替 。 不 满足 于 基本 
收入 的 那些 人 会 赚 得 更 多 ， 在 所 剩 无 儿 的 人 类 职业 中 大 赚 一 笔 。 目 由 
党 和 保守 党 仍然 会 因为 税率 而 和 争 吵 ， 但 球门 柱 已 经 被 永远 移 走 了 。 随 
着 劳动 力 总 价值 的 又 减 ， 最 富裕 的 国家 将 是 那些 卓然 钦 源 与 人 口 比例 
最 高 的 国家 (现在 移 到 加 拿 大 了 ) 。 对 于 那些 不 工作 的 人 ， 生 活 不 会 
变 得 没有 意义 ， 最 多 就 像 在 热带 岛屿 上 ， 那 里 大 自然 的 恩赐 满足 了 所 
有 需求 ， 生 活 才 变 得 没有 意义 。 礼 品 经 济 将 会 发 展 起 来 ， 开 源 软件 运 
动 将 是 预告 。 人 们 在 人 际 关 系 、 目 我 实现 、 灵 性 中 寻找 意义 ， 殉 和 现 
在 他 们 做 的 一 样 。 读 生 的 需要 将 会 变 成 遥远 的 记忆 ， 这 是 我 们 殉 服 的 
又 一 个 人 类 的 原始 过 去 。 


战争 不 属于 人 类 


对 服役 目 动 化 比 对 科学 目 动 化 要 困难 ， 但 最 终 会 实现 的 。 机 事 人 
的 主要 用 途 之 一 吏 是 完成 那些 对 人 类 来 说 过 于 危险 的 任务 ， 战 争 也 一 
样 危险 。 机 右 人 已 经 可 以 拆 挥 炸弹 ， 而 无 人 机 可 以 使 一 个 团 看 清 整 座 
山 。 自 萄 供应 卡车 和 机 器 又 (robotic mule) 正在 研发 当中 。 很 快 我 们 
就 要 决定 是 否 人 允许 机 器 人 目 己 扣 动 扳机 。 因 为 这 样 做 之 所 以 存在 争 
论 ， 是 因为 虽然 可 以 让 人 类 远离 伤害 ,但 远程 控制 在 移动 迅速 、 不 是 
你 死 束 是 我 亡 的 情况 中 不 太 切 实 可 行 。 反 对 的 人 认为 ， 机 器 人 没有 道 
德 标准 ， 所 以 无 法 让 它们 决定 某 个 生物 的 生死 。 但 我 们 可 以 教会 它 
们 ， 更 深层 次 的 问题 在 于 ， 我 们 是 否 准备 好 这 人 么 做 了 。 


要 重申 诸如 军事 需要 原则 、 相 称 原 则 、 宽恕 民众 原则 等 之 类 的 总 
则 并 不 困难 ， 但 它们 与 具体 行动 之 则 存在 鸿沟 ， 士 兵 的 判断 整 是 要 填 
补 这 道 鸿沟 。 当 机 器 人 将 阿 西 莫 夫 的 机 器 人 学 三 条 定律 运用 到 实践 中 
时 ， 很 快 束 会 产生 麻烦 ， 他 的 故事 融 深 刻 曾 明了 这 一 点 。 总 则 通 闻 要 
么 会 有 下 盾 ， 要 人 么 会 目 相 矛盾 ， 以 免 将 所 有 情况 者 判定 为 非法 即日 。 
什么 时 候 盏 事 需 要 会 比 宽恕 民众 重要 ? 没有 统一 的 答案 ， 也 没有 什么 
方法 来 对 一 全 包含 所 有 可 能 性 的 计算 机 进行 编程 。 然 而 ， 机 融 学 习 拓 
供 了 替代 的 方法 。 首 先 ， 教 会 机 器 人 来 识别 相关 概念 ， 例 如 ， 可 以 利 
用 各 类 情况 的 数据 集 ， 这 些 情况 包括 : 民众 得 到 与 得 不 到 宽恕 ， 武 闭 
反应 相称 与 不 相称 等 。 然 后 以 涉及 这 些 概念 的 规则 的 形式 ， 赋 予 它 行 
为 准则 。 最 终 ， 让 机 絮 人 学 会 如 何 通过 观察 人 类 来 应 用 这 些 准则 : 十 
兵 在 这 种 情况 下 会 开火 ， 但 在 男 外 一 种 情况 下 不 会 开火 。 通 过 概括 这 
些 例子 ， 机 器 人 可 以 擎 握 一 个 端 到 闻 模 型 ， 比 如 可 以 以 大 型 多 逻辑 市 
扩 的 形式 来 做 道德 决策 。 一 旦 机 器 人 的 决策 和 某 个 人 类 的 一 致 ， 而 这 
个 人 的 决策 又 往往 与 他 人 的 一 致 ， 那 么 训练 惑 完成 了 ， 意 味 着 模型 可 
以 被 下 载 ， 并 用 于 数 千 个 机 器 人 的 大 脑 。 不 像 和 人类， 机 器 人 在 油 烈 的 


战斗 中 不 会 失去 理智 。 如 采 机 胡 人 出 现 故 障 ， 制 造 商 吏 得 负责 任 ， 如 
果 机 各 人 打 错 电话 ， 教 它 的 人 束 得 负责 任 。 


这 个 方案 的 主要 问题 也 许 你 已 经 猜 到 ， 殊 是 让 机 器 人 通过 观察 人 
类 来 学 习 道 德 标 准 并 不 是 一 个 好 主意 。 当 机 器 人 看 到 人 类 的 行为 经 营 
违背 道德 准则 时 ， 它 就 会 变 得 非常 困惑 。 我 们 可 以 清理 训练 数据 ， 方 
法 包含 所 有 这 些 例 子 : 道德 学 家 小 组 一 致 同意 ， 士 兵 做 了 正确 的 决 
定 ， 而 专家 小 组 成 员 也 可 以 在 学 习 之 后 ， 对 模型 进行 检查 和 微调 以 满 
足 他 们 的 要 求 。 意 见 可 能 难以 统一 ， 但 是 ， 如 有 果 小 组 包含 所 有 各 种 不 
同 的 人 ， 它 就 该 被 统一 。 疝 机 絮 人 教授 伦理 道德 ， 因 为 它们 的 逻辑 思 
维 没 有 负担 ， 这 会 迫使 我 们 检查 我 们 的 假设 ， 然 后 对 目 己 的 矛盾 行为 
进行 分 类 。 在 这 个 领域 里 〈 其 他 许多 领域 ) ， 机 器 学 习 最 大 的 好 处 也 
许 不 在 于 机 器 学 习 了 什么 ， 而 在 于 通过 教授 这 些 机 器 ， 我 们 学 会 了 什 
是 


男 一 个 反对 建立 机 器 人 军队 的 观点 是 ， 它 们 使 战争 变 得 太 容 易 。 
但 如 果 我 们 单方 面 放 弃 建 立 机 器 人 大 军 ， 可 能 会 引起 下 一 场 战 争 。 
《逻辑 反应 》 (The Logical Response) 由 联合 国 和 人 权 观 察 组 织 主 
张 ， 是 一 个 禁止 机 器 人 战争 的 协议 ， 和 1925 年 颁布 的 禁止 生化 战争 的 
《日 内 瓦 公约 》 类 似 。 但 是 ， 这 里 忽略 了 一 个 重要 的 不 同 点 。 生 化 战 
争 只 会 增加 人 类 的 痛 苗 ， 但 机 絮 人 战争 可 以 很 大 程度 上 减轻 痛 亩 。 如 
果 战 争 是 机 器 人 参与 战斗 ， 人 类 只 是 指挥 ， 就 不 会 有 人 受伤 或 者 死亡 
了 。 那 么 也 许 我 们 该 做 的 ， 不 是 放逐 机 器 人 士兵 ， 而 是 ( 当 我 们 准备 
好 时 ) 放逐 人 类 士兵 。 


机 妖 人 军队 确实 使 战争 发 生 的 可 能 性 变 大 ， 但 它们 也 会 改变 战争 
的 伦理 学 。 如 采 目 标 是 其 他 机 严 人 ， 射 击 与 不 射击 的 困境 会 容易 解决 
得 多 。 现 代 观 点 认为 战争 念 饰 得 无 法 形容 ， 人 们 在 担 不 得 已 时 才 会 采 
取 战 争 手段 。 这 种 观点 会 被 一 个 稍 有 差别 的 观点 蔡 代 ， 即 认为 战争 是 
一 种 毁灭 性 的 狂欢 ， 会 使 所 有 参战 方 变 得 贫穷 ， 所 以 最 好 避免 战 委 ， 


但 也 不 能 因为 避免 战争 而 付出 所 有 代价 。 如 果 将 战争 还 原 为 一 场 苋 
赛 ， 目 的 钙 看 看 谁 的 挫 虹 能 力 最 强 ， 那 么 为 什么 不 比比 谁 创造 的 价值 


最 多 呢 ? 


无 论 如 何 ， 禁 止 机 器 人 战争 也 许 不 太 可 行 。 未 来 无 论 是 大 国 还 是 
小 国 ， 都 会 忙 着 研发 (而 完全 不 是 禁止 ) 遥控 飞机 (未 来 战争 机 器 
的 前 身 ) ， 因 为 它们 估计 这 样 做 的 好 处 大 于 风险 。 和 所 有 武器 一 样 ， 
自己 拥有 机 器 人 ， 比 信任 另 一 方 认为 不 该 有 机 器 人 更 安全 。 如 果 在 未 
来 战争 中 ， 数 百 万 架 神 风 系列 遥控 飞机 将 会 在 几 分 钟 之 内 拱 毁 传统 的 
军队 ， 它 们 最 好 是 我 们 的 遥控 飞机 。 如 果 第 三 次 世界 大 战 会 在 数秒 
结束 ， 也 就 是 一 方 控制 另 一 方 的 系统 ， 我 们 最 好 还 是 具备 更 加 智能 、 
更 加 快速 、 更 加 有 复原 力 的 网 络 ( 离 网 系统 不 是 解决 办 法 ， 因 为 虽然 
没有 经 过 网 络 连接 的 系统 不 会 被 黑 ， 但 它们 也 无 法 和 连接 网 络 的 系统 
相 比 较 ) 。 总 而 言 之 ， 如 果 机 器 人 装备 竞赛 能 加 速 《 日 内 瓦 第 五 公 
约 》( 岂 禁止 人 类 参与 战争 的 进程 ， 也 许 这 也 是 一 件 好 事 。 战 争 会 一 直 
陪伴 我 们 ， 但 战 死 则 不 一 定 是 必然 的 。 


谷歌 十 终极 算法 = 天 网 ? 


当然 ， 机 郝 人 和 军队 也 会 引起 完全 不 一 样 的 全 人 慨 。 根 据 好 菜 坞 电 
影 ， 人 类 的 未 来 将 会 被 庞大 的 人 工 智能 及 其 大 量 的 机 器 小 兵 扼 杀 〈 当 
然 ， 除非 有 一 位 有 胆量 的 英雄 在 电影 最 后 5 分 钟 挽回 了 局 面 ) 。 合 歌 已 
经 拥有 这 样 的 人 工 智能 所 需要 的 庞大 硬件 ， 而 且 最 近 已 经 由 一 些 机 器 
人 创业 公司 来 运行 了 。 如 果 我 们 将 终极 算法 置 入 其 服务 器 ， 那 么 人 类 
会 虹 灭 吗 ? 当然 会 。 是 时 候 表 明 我 的 真正 安排 了 ， 对 于 托 尔 金 ， 我 表 
示 抱 歉 : 


三 大 算法 归属 天 下 科学 家 ， 


七 大 算法 归属 服务 器 工程 师 ， 

九 种 算法 属于 了 间 大 可 数 的 凡人 ， 

还 有 一 种 属于 高 大 御 座 的 黑暗 人 工 状 能 。 
学 习 算 法 之 大 地 黑 影 习习 。 

一 种 算法 统领 众 式 ， 尽 归 罗 网 ， 

一 种 算法 蔡 钢 众 戒 ， 展 上 暗 无 光 。 

学 习 算法 之 地 黑 影 恒 习 。 


哈哈 ! 严肃 地 说 ， 我 们 该 不 该 担心 机 絮 人 会 接管 世界 ? 有 种 种 不 
祥 的 预 焰 。 一 年 接着 一 年 ， 计 算 机 所 做 的 世界 性 工作 并 没有 变 多 ， 它 
们 做 得 更 多 的 是 决策 。 谁 拿 到 信用 卡 ， 谁 购买 什么 ， 谁 得 到 什么 工作 
和 什么 样 的 升 职 机 会 ， 哪 只 股票 会 上 涨 和 下 跌 ， 保 险 人 花费 多 少 ， 和 警官 
会 在 哪里 这 逻 ， 然 后 谁 会 被 隶 捕 、 刑 期 会 有 多 长 ， 谁 约 了 谁 、 又 生 了 
谁 一 一 通过 机 器 掌握 的 模型 已 经 在 所 有 这 些 事 情 中 起 作用 。 关 挥 我 们 
的 所 有 计算 机 而 不 会 引起 现代 文明 月 演 的 时 刻 早已 过 去 。 机 器 学 习 厦 
最 后 一 根 稻草 ， 如 采 可 以 开始 进行 目 我 编程 ， 那 么 所 有 控制 它们 的 布 
望都 肯定 会 落空 。 著 名 科学 家 如 史 希 分 .霍金 已 经 呼吁 趁 司 研 究 这 个 问 
题 。 


放 轻 松 ， 备 有 终极 算法 的 人 工 智能 接管 世界 的 概率 是 零 。 原 因 很 
简单: 不 像 人 类 ， 计 算 机 本 喘 并 没有 目 己 的 意志 。 它 们 是 工程 师 生 产 
的 产品 ， 而 不 是 进化 体 。 即 使 无 限 强大 的 计算 机 ， 也 仅仅 是 我 们 意志 
的 延伸 ， 没 什么 可 怕 的 。 回 忆 一 下 每 种 学 习 算 法 的 三 个 组 成 部 分 : 表 
示 方 法 、 评 佑 、 优 化 。 学 习 算 法 的 表示 方法 限制 了 它 能 学 习 的 内 容 。 
让 我 们 把 它 想 象 成 很 强大 的 学 习 算法 ， 比 如 马尔 科 夫 逻辑 ， 那 么 该 学 
习 算 法 原则 上 可 以 学 习 任 何 东 西 。 接 着 最 优化 亏 会 在 其 权力 范围 内 ， 
做 所 有 工作 来 将 评估 功能 最 大 化 一 一 不 多 也 不 少 一 一 而 评估 功能 “十 由 
我 们 决定 的 "。 一 台 更 强大 的 计算 机 只 会 把 它 优化 得 更 好 。 掌 握 的 系统 


如 有 果 过 去 不 按照 我 们 想 要 的 来 做 事 ， 那 么 它 束 会 闫 重 不 适合 ， 因 此 整 
会 消失 。 实 际 上 ， 那 些 一 代 接 一 代 、 能 稍微 更 好 地 服务 我 们 的 系统 会 
呈现 多 样 化 并 接管 基因 库 。 当 然 ， 如 琳 我 们 感 夸 a 到 故意 对 计算 机 进行 
编程 ， 让 其 姿 区 于 我 们 之 上 ， 那 么 我 们 就 该 被 统治 。 


同样 的 推理 也 可 用 于 所 有 人 工 智能 系统 ， 因 为 它们 都 (明确 或 者 
含蓄 地 ) 具备 同样 的 三 个 组 成 部 分 。 它 们 可 以 多 样 化 它们 做 事 的 内 
容 ， 甚 至 想 出 惊人 的 计划 ， 但 仅仅 服务 于 我 们 设 定 给 它们 的 目标 。 如 
果 一 个 机 器 人 被 设 定 的 目标 是 “做 一 顿 大 餐 *， 它 可 能 会 决定 前 一 份 牛 
排 、 者 一 份 法 式 海鲜 浓 汤 ， 或 者 做 一 道 独创 的 新 菜 式 ， 但 它 无 法 决定 
谋杀 它 的 主人 ， 就 像 汽 车 无 法 确定 飞 走 那样 。 人 工 智能 系统 的 目标 就 
是 要 解决 NP 完全 问题 (你 可 能 会 联想 到 第 二 章 ) ， 解 决 这 个 问题 可 能 
需要 指数 级 的 时 间 ， 但 解决 方法 总 可 以 得 到 有 效 验 证 。 因 此 我 们 应 该 
张 开 怀抱 欢迎 比 我 们 大 脑 强大 很 多 的 计算 机 ， 因 为 我 们 的 工作 要 比 它 
们 的 简单 很 多 ， 知 道 这 一 点 就 安心 了 。 它 们 得 解决 问题 ， 我 们 只 要 保 
证 它们 做 的 事 能 让 我 们 满意 。 对 于 一 些 东西 ， 我 们 思考 得 很 慢 ， 但 人 
工 智能 却 很 快 ， 而 这 个 世界 对 它们 来 说 也 将 是 更 好 的 世界 。 我 (作为 
人 类 中 的 一 个 ) 欢迎 我 们 的 新 型 机 器 人 下 属 。 


有 人 担心 稼 能 机 器 会 掌握 控制 权 ， 这 很 目 然 ， 因 为 我 们 知道 的 唯 
一 智能 实体 束 古 人 类 和 其 他 动物 ， 而 它们 明确 具备 自己 的 意志 。 但 没 
有 必要 将 智能 意志 和 独立 意志 联系 起 来 ， 更 确切 地 说 ， 智 能 也 许 并 不 
适应 同样 的 主体 ， 只 要 它们 之 间 存 在 统治 。 在 《延伸 的 表现 型 》 一 书 
中 ， 理 碍 德 ' 道 金 斯 表明 大 目 然 中 充满 了 动物 基因 不 仅 控制 其 号 体 的 例 
子 ， 从 布谷 鸟 的 蛋 到 海 狸 水 圾 。 技 术 束 是 人 类 的 延伸 表现 型 。 这 意味 
着 我 们 可 以 继续 控制 它 ， 即 使 它 会 变 得 复杂 到 让 我 们 难以 理解 。 


假设 两 条 20 亿 年 前 的 DNA 在 它们 的 “私人 泳池 ”( 也 称 为 细菌 的 细 
胞 质 ) 中 “游泳 *。 它们 正在 思考 一 项 重大 决策 。“ 我 在 担心 ， 戴 安 
娜 ,，” 其 中 的 一 条 说 , “如 采 我 们 开始 制造 多 细胞 生物 ， 它 们 会 统治 世 


界 吗 ? ”现在 快 进 到 21 世 纪 ， 此 时 DNA 仍 然 活 着 而 且 很 健康 。 实 际 
上 ， 比 以 往 更 好 的 是 ， 越 来 越 大 比例 的 DNA 安 全 地 存在 两 足 有 机 体 
中 ， 组 成 数 以 亿 计 的 细胞 。 目 从 我 们 的 双 链 “朋友 ”做 出 它们 的 重大 决 
定 ， 这 束 变 得 很 磋 烦 了 。 人 类 就 是 它们 创造 的 最 难以 对 付 的 生物 ， 我 
们 发 明 出 诸如 避孕 之 类 的 东西 来 让 自己 寻找 乐趣 ， 而 又 不 用 传播 
DNA， 且 我 们 具备 (或 者 说 似乎 具备 ) 自由 的 意志 。 但 还 是 DNA 形 成 
了 我 们 对 于 乐趣 的 概念 ， 而 我 们 利用 目 己 的 目 由 意志 来 追求 快乐 和 避 
免 痛 杏 ， 这 很 大 程度 上 仍然 与 对 我 们 DNA 生 存 最 有 利 的 东西 相符 。 如 
条 我 们 选择 将 目 己 变 成 硅 ， 那 么 我 们 也 许 是 DNA 有 灭亡 的 产物 ， 但 即使 
那样 ， 这 也 是 一 段 伟 大 的 20 亿 年 历史 。 当 今 我 们 面 对 的 决定 也 相似 : 
如 条 我 们 开始 制造 人 工 智能 一 一 庞大 的 、 相 互 连 接 的 、 超 人 类 的 、 难 
以 理解 的 人 工 智 能 一 一 那么 它们 会 统治 世界 吗 ?” 最 多 束 像 多 细胞 有 机 
体 取 代 基 因 ， 对 于 它们 来 说 ， 我 们 可 能 也 是 庞大 的 、 难 以 理解 的 。 人 
工 知 能 是 我 们 的 幸存 机 右 ， 和 我 们 征 我 们 基因 的 入 存 机 套 同 一 个 道 
理 


然而 ， 这 并 不 意味 着 没有 什么 可 以 担心 了 。 最 大 的 忧虑 是 ， 和 所 
有 技术 一 样 ， 人 工 智 能 可 能 会 落 入 不 法 之 徒手 里 。 如 有 果 徘 犯 或 者 摘 恶 
作 剧 的 人 对 人 工 知 能 进行 编程 ， 用 于 统治 世界 ， 我 们 最 好 有 人 工 物 能 
警察 局 来 抓 住 他 们 ， 并 消灭 他 们 以 防 其 道 遥 法 外 。 为 了 避免 庞大 的 人 
工 知 能 变 得 疡 狂 ， 最 佳 的 保险 措施 束 是 有 更 庞大 的 人 工 智 能 来 维护 和 
5 


第 二 个 忧虑 就 古人 类 会 目 愿 屈服 于 统治 。 它 始 于 机 器 人 的 权力 ， 
对 我 但 并 不 是 所 有 人 来 说 有 点 毫 座 。 毕 葛 ， 我 们 已 经 把 权力 赋予 了 动 
物 ， 但 动物 却 从 不 要 求 有 权力 。 在 扩张 “共鸣 圈 ”* 中 ， 其 下 一 步 束 是 机 
咒 人 权力 应 该 算 十 合情合理 。 对 机 器 人 表示 同情 并 不 难 ， 尤 其 设计 它 
们 就 是 为 了 唤起 同情 。 即 使 是 日 本 的 “虚拟 宠物 ”"， 只 有 三 个 按键 、 一 
个 LCD (液晶 显示 器 ) 屏幕 ， 也 能 成 功 唤 起 同情 。 第 一 个 像 人 的 消费 
者 机 右 人 会 引发 范 赛 ,制造 越 来 越 多 唤起 同情 心 的 机 器 人 ， 因 为 它们 


卖 得 比 一 般 的 金属 机 絮 人 要 好 得 多 。 由 机 器 人 奶奶 市 大 的 孩子 会 终 刁 
容易 被 友好 的 电子 朋友 感动 。“ 仍 怖 合理 论 ” 一 一 对 于 那些 接近 人 类 但 
又 不 是 人 类 的 机 絮 人 ， 我 们 会 有 不 适 感 一 一 对 他 们 来 说 将 会 无 法 理 
解 ， 因 为 他 们 融 厦 机 器 人 的 习性 长 大 ， 甚 至 可 能 会 变 成 酯 酷 的 青 少 
人 


在 隐伏 的 人 工 智 能 统治 的 进程 中 ， 下 一 步 驶 是 让 它们 做 所 有 决 
策 ， 因 为 它们 是 如 此 智能 。 当 心 ! 它们 可 能 会 更 加 智能 ， 但 它们 服务 
于 任何 设计 出 它们 计 分 函数 的 人 。 这 就 是 “绿野仙踪 ”问题 。 在 智能 机 
如 人 的 世界 中 ， 你 的 工作 就 十 要 确保 它们 做 了 你 想 做 的 事 ， 无 论 是 在 
输入 ( 设 定 目标 ) 时 ， 还 是 在 输出 (检查 你 得 到 了 自己 要 求 得 到 的 东 
西 ) 时。 如 果 你 不 这 样 做 ， 会 有 其 他 人 做 。 机 器 可 以 帮助 我 们 弄 明 白 
总 体 来 说 我 们 想 要 什么 ， 但 如 有 果 你 不 参与 ， 驶 会 输 掉 一 一 承 像 民主 一 
样 ， 只 有 参与 你 才 不 会 输 。 和 当今 我 们 相信 的 相反 ， 人 类 太 容 易 遵 守 
别人 的 规则 ， 而 任何 足够 先进 的 人 工 智能 都 无 法 区 别 于 上 第。 人 类 不 
会 介意 听取 来 目 某 全 玄妙 深奥 的 计算 机 的 前 进 命令 ， 问 题 在 于 谁 来 监 
督 监督 者 。 人 工 智能 通 往 的 是 更 完善 的 民主 ， 还 是 更 潜伏 的 专政 ? 永 
恒 的 监视 才刚 刚 开 始 。 


第 三 个 忧虑 (可 能 也 是 最 大 的 ) 就 是 像 众 所 周知 的 魔 仆 一 样 ， 机 
右 会 给 我 们 要 求 的 而 不 古 想 要 的 东西 。 这 并 不 是 一 种 假设 性 情景 分 
析 ， 学 习 算 法 会 一 直 做 这 件 事 。 我 们 训练 神经 网 络 来 识别 马匹 ， 但 它 
掌握 的 却 征 褐 块 ， 因 为 所 有 的 马匹 机 器 训练 集 刚 好 是 褐色 的 。 你 只 是 
买 一 块 手 表 ， 所 以 亚马逊 推荐 了 类 似 的 商品 一 一 其 他 手表 ， 此 时 手表 
变 成 你 最 不 想 买 的 东西 。 如 果 你 检查 计算 机 今天 所 做 的 所 有 决定 ， 比 
如 谁 拿 到 信用 卡 ， 台 会 发 现 这 些 决定 贡 前 不 必要 那么 糟 糙 。 如 采 你 的 
大 脑 一 台 文 持 问 量 机 ， 且 你 的 所 有 信用 评估 知识 从 阅读 一 个 糟糕 的 
数据 库 中 得 来 ， 你 的 决定 也 会 变 成 那样 。 人 们 担心 计算 机 会 变 得 过 于 
智能 而 统治 世界 ， 但 真正 的 问题 是 ， 它 们 也 很 妃 磊 但 己 经 统治 世界 。 


进化 的 第 二 部 分 


即使 当今 计算 机 还 不 是 非常 智能 ， 但 无 疑 它 们 的 智力 却 在 快速 提 
升 。 早 在 1965 年 ，IJ 古 德 英国 〈 一 位 统计 学 家 以 及 阿兰 :图 灵 在 第 二 次 
世界 大 战 中 密码 破解 项 目 上 的 伙伴 ) 就 推测 到 即将 到 来 的 “智能 爆 
炸 ”。 古 德 指出 ， 如 果 我 们 可 以 设计 出 比 自 己 还 要 智能 的 机 器 ， 反 过 
来 ， 它 们 也 可 以 设计 出 比 它 们 更 加 乔 能 的 机 器 ， 殊 这 样 无 休止 继续 下 
去 ， 让 人 类 智能 落 在 后 面 。 在 1993 年 的 一 篇 文章 中 ， 弗 诸 . 文 奇 将 其 命 
名 为 “ 奇 点 ”。 这 个 概念 经 过 雷 : 库 化 韦 尔 得 到 最 大 推广 ， 他 在 《 奇 点 临 
近 》 中 指出 ， 不 仅仅 奇 点 不 可 避免 ， 而 且 机 大 智 能 超越 人 类 智能 的 时 
刻 〈 让 我 们 称 之 为 "反观 点 ”) 也 将 会 在 未 来 几 十 年 到 达 。 


显然 ， 如 果 没 有 机 器 学 习 一 一 设计 程序 的 程序 一 一 奇 点 将 无 法 发 
生 。 我 们 也 会 需要 足够 强大 的 硬件 ， 但 那 会 很 顺利 地 达到 。 我 们 发 明 
出 终极 算法 之 后 很 快 就 会 达到 “反观 点 ”( 我 愿意 和 库 效 韦 尔 赌 一 瓶 唐 : 
培 里 依 香 槟 王 ， 觉 得 这 会 在 我 们 对 大 脑 进 行 逆向 工程 前 就 会 发 生 ， 逆 
向 工程 是 他 选择 的 用 于 到 达 人 类 水 平 智能 的 方法 ) 。 


“ 奇 点 ”这 个 术语 源 于 数学 ， 表 示 此 处 有 一 个 使 画 数 变 成 无 穷 大 画 
数 的 态 。 例 如 ， 当 x 为 0 时 ，1/x 这 个 函数 束 会 有 奇 操 ， 因 为 1 除 以 0 的 得 
数 是 无 穷 大 。 在 物理 学 中 ， 柯 点 的 典型 例子 束 是 湿润 : 密度 为 无 限 大 
的 总 ， 此 处 有 限 数量 的 物质 被 蹇 入 无 穷 小 的 空间 中 。 奇 点 的 唯一 问题 
就 在 于 它们 并 不 是 真正 存在 的 〈 你 上 次 给 0 个 人 切 和 蛋糕， 每 个 人 都 会 拿 
到 无 数 块 蛋糕 是 什么 时 候 )。 在 物理 学 中 ， 如 果 某 个 理论 预测 某 物 无 
穷 大 ， 那 么 这 个 理论 束 会 出 问题 。 举 个 恰当 的 例子 ， 广 义 相 对 论 也 许 
会 预测 ， 黑 洞 有 无 穷 大 的 密度 ， 因 为 它 名 上 略 了 量子 效应 。 同 样 ， 关 能 
无 法 永远 都 在 提高 。 库 效 韦 尔 承认 了 这 一 点 ， 但 他 指 的 是 技术 改进 
(处 理 器 速度 、 记 忆 容 量 等 ) 中 的 一 系列 指数 曲线 ， 并 提出 这 种 增长 
的 界限 是 如 此 听 远 ， 我 们 不 必 纠 缠 于 这 些 界 限 。 


库 效 韦 尔 过 拟 合 了 。 他 准确 地 批评 别人 ， 因 为 他 们 总 是 进行 线性 
推断 一 一 看 到 直线 而 不 是 曲线 一 一 但 也 深 受 更 为 奇异 的 疾病 之 害 ， 指 
数 随处 可 见 。 在 曲线 中 会 有 平 直 部 分 一 一 什么 也 没 发 生 一 一 他 看 到 还 
没有 兢 升 的 指数 ， 它 们 是 Ss 形 曲线 (我 们 在 第 四 章 的 好 朋友 ) 。S 形 曲 
线 的 开始 部 分 会 容易 被 误 以 为 是 一 个 指数 ， 但 它们 会 很 快 偏离 。 多 数 
库 兹 韦 尔 曲线 是 摩尔 定律 的 结果 ， 处 于 快要 结束 的 状态 。 库 兹 韦 尔 认 
为 ， 其 他 技术 会 代替 半导体 ， 而 S 形 曲线 会 堆 在 S 形 曲线 上 ， 每 条 曲线 
都 比 前 一 条 要 陡 ， 但 这 是 猜测 。 他 进一步 提出 ， 地 球 上 生命 的 整个 历 
史 ， 不 仅仅 是 人 类 技术 表现 出 呈 指 数 加 速 发 展 ， 但 产生 这 种 感觉 至 少 
部 分 原因 在 于 视差 的 影响 一 一 离 得 比较 近 的 东西 似乎 移动 得 更 快 。 处 
于 寒 武 纪 爆 发 时 的 酷热 中 的 三 叶 虫 ， 因 为 相信 指数 加 速 发 展 而 得 到 宽 
奶 ， 不 过 有 一 个 很 大 的 减速 。 骏 龙 雷 (Tyranno saurus Pay) 也 许 会 提 
出 一 个 加 速 扩大 体型 。 真 核 细胞 〈 我 们 ) 进化 的 速度 要 比 原核 生物 

〈 细 菌 ) 要 慢 。 进 化 的 过 程 是 时 进 时 退 ， 不 可 能 总 是 顺利 加 速 。 


为 了 回避 这 样 一 个 问题 : 无 限 密集 的 点 不 存在 ， 库 将 韦 尔 提出 将 
奇 点 与 黑洞 的 视界 等 同 起 来 ， 凌 洞 视 界 的 重力 如 此 强大 ， 交 线 也 无 法 
逃脱 。 同 样 ， 他 说 ， 柯 点 吏 是 这 样 一 个 点 ， 在 这 个 点 之 外 技术 演化 进 
行 得 如 此 快速 ， 人 们 都 无 法 预测 或 者 了 解 将 要 发 生 什 么 。 如 采 那 吏 是 
奇 点 ， 那 么 我 们 已 经 在 它 里 面 。 我 们 无 法 提前 预测 一 种 学 习 算 法 会 想 
出 什么 主意 ， 甚 至 我 们 在 回顾 过 去 时 常常 无 法 理解 它 。 实 际 上 ， 我 们 
一 直 生 活 在 这 样 一 个 只 能 理解 某 些 部 分 的 世界 中 。 主 要 的 差别 在 于 ， 
我 们 的 世界 现在 部 分 创造 了 我 们 ， 这 肯定 是 改善 之 处 。“ 反 观点 ?之 外 
的 世界 对 我 们 来 说 会 不 可 思议 ， 吏 像 更 新 世 一 样 。 我 们 将 会 把 注意 力 
集中 在 目 己 能 理解 的 事物 上 ， 正 如 我 们 一 直 做 的 ， 并 将 剩 下 的 称 为 “ 随 
机 的 ”( 或 者 “神圣 的 ”) 。 


我 们 所 处 的 轨道 不 是 柯 点 ， 而 是 相 变 。 它 的 临界 点 一 一 反观 点 
一 一 当 机 赤 学 习 赶 上 目 然 多 样 化 时 ， 反 观点 就 会 到 来 。 目 然 学 习 法 本 
身 已 经 经 历 了 三 个 阶段 : 进化 、 大 脑 、 文 化 。 每 个 阶段 都 是 前 一 个 阶 


段 的 产物 ， 而 且 每 个 阶段 都 会 学 得 更 快 。 机 器 学 习 逻 辑 上 古 该 进程 的 
下 一 阶段 。 计 算 机 程序 是 世界 上 最 快速 的 复制 者 : 复制 它们 只 需要 不 
到 一 秒 ， 但 创造 它们 却 比 较 缓慢 〈 如 果 这 件 事 由 人 类 完成 ) 。 机 器 学 
习 殉 服 了 瓶颈 期 ， 留 下 最 后 一 个 : 人 类 可 接受 改变 的 速度 。 这 个 到 最 
后 也 会 被 区 服 ， 但 并 不 是 因为 我 们 决定 将 东西 移交 给 我 们 的 “智能 后 
代 ”， 正 如 汉 斯 : 菜 拉 维 克 所 称呼 的 那样 ， 然 后 温柔 地 走 进 美 好 的 夜 
晚 。 人 类 并 不 是 生命 之 树 上 垂死 的 村 了 ， 相反， 我 们 开始 出 现 分 支 。 


文化 和 更 大 的 大 脑 共同 进化 ， 与 此 类 似 ， 我 们 会 与 目 己 的 创造 物 
一 起 进展 。 我 们 一 直 具 备 一 一 如 琳 我 们 没有 发 明火 或 者 长 予 ， 那 么 人 
类 从 外 表 上 看 会 有 差别 。 我 们 十 “技术 人 ”， 和 知人 差不多 。 但 在 第 九 
章 中 我 设想 的 那 种 细胞 模型 也 会 考虑 全 新 的 东西 一 一 在 你 所 提供 参数 
的 基础 上 设计 细胞 的 计算 机 ， 以 及 以 同样 方式 在 功能 规格 的 基础 上 设 
计 微 芯片 的 硅 编译 器 。 对 应 的 DNA 可 以 合成 并 插入 一 个 “通用 ”细胞 ， 
将 其 转化 成 想 要 的 那个 。 殉 雷 格 . 文 特 尔 是 基因 组 的 和 多 峰 ， 已 经 在 这 个 
方 癌 迈 出 第 一 步 。 首 移 ， 我 们 会 利用 这 股 力量 来 抗击 疾病 : 新 的 病原 
体 已 经 确定 ， 治 疗 方法 立刻 束 补 发现 ， 你 的 免疫 系统 从 网 上 将 它 下 载 
下 来 。 健 康 问题 变 成 矛盾 修饰 法 。 然 后 DNA 设 计 会 让 和信 们 最 后 拥有 他 
们 想 要 的 身体 ， 迎 来 买 得 起 的 美丽 时 代 ， 威 说 -吉布森 说 了 上 述 让 人 记 
忆 深 刻 的 话 。 然 后 接着 “技术 人 ”会 进化 成 无 数 不 同 的 养 能 物种 ， 每 种 
物种 都 有 其 生态 位 ， 这 是 一 个 全 新 的 与 当今 不 一 样 的 生物 圈 ， 正 如 当 
今 的 生物 圈 与 原始 海洋 存在 差异 一 样 。 


许多 人 担心 以 人 为 导 回 的 进化 会 永久 性 地 将 人 类 分 为 基因 拥有 者 
的 一 个 类 别 ， 以 及 基因 缺失 者 的 一 个 类 别 。 这 次 想象 的 异常 失败 打击 
了 我 。 目 然 进化 最 后 不 会 只 有 两 种 物种 ， 一 种 物种 顺从 男 一 种 物种 。 
这 束 意 味 着 下 一 个 瓶 贷 束 是 界限 ， 虽 然 现 在 我 们 还 没 看 到 它 。 其 他 过 
渡 期 会 到 来 ， 有 些 长 ， 有 些 短 ， 有 些 快 ， 有 些 不 会 持续 很 长 ， 但 在 地 
球 的 生命 历程 中 ， 接 下 来 的 几 干 年 很 有 可 能 钙 最 为 令 人 慰 叹 的 一 段 历 
程 。 


1. 


冲 


《日 内 瓦 公约 》 是 1864 一 1949 年 在 瑞士 日 内 瓦 缔结 的 关于 保护 平民 和 战争 受难 者 的 


一 系列 国 
一 种 设想 。 


际 公约 的 总 称 ， 


一 一 编者 沪 


\ 


含 四 个 公约 。 这 里 提 到 的 《日 内 瓦 第 五 公约 》 是 作者 对 未 来 的 


导电 


现在 你 已 了 解 了 机 器 学 习 的 秘密 。 将 数据 变 为 知识 的 机 器 不 再 古 
一 个 黑匣子 : 你 知道 魔法 是 如 何 发 生 的 ， 以 及 它 能 做 什么 、 不 能 做 什 
么 。 你 已 经 遇 到 复杂 性 怪兽 、 过 拟 合 难题 、 维 数 灾难 、 探 索 与 开发 困 
境 。 你 大 体 上 知道 了 谷歌 、 脸 书 、 亚 马 进 和 所 有 其 他 网 站 把 你 每 天 慷 
慨 提供 给 它们 的 数据 用 来 做 了 什么 ， 它 们 为 什么 能 帮 你 找到 东西 、 过 
滤 垃 圾 ， 且 不 断 改善 它们 的 服务 。 你 已 经 看 到 ， 在 世界 机 絮 学 习 人 研究 
实验 室 里 正 酝 本 什么 ， 你 可 以 旁观 他 们 正在 创造 的 未 来 。 你 已 经 看 到 
机 器 学 习 的 五 大 学 派 以 及 它们 的 主 算法 : 符号 学 派 和 逆 癌 演绎 ， 联 结 
学 派 和 逆 回 传播 ， 进 化 学 派 和 遗传 算法 ， 贝 叶 斯 学 派 和 概率 推理 ， 类 
推 学 派 和 支持 向 量 机 。 因 为 你 已 经 过 历 广阔 的 区 域 ， 协 调 跨越 边境 ， 
扑 到 顶峰 ， 和 很 多 机 器 学 习 算 法 相 比 ， 你 能 更 好 地 欣 沉 风景， 而 那些 
学 习 算 法 只 能 在 其 领域 中 每 日 艰 藻 工作 。 你 可 以 看 到 共同 主题 流 涧 在 
这 片 土地 上 ， 就 像 一 条 地 下 河流 ， 并 且 你 还 明日 ， 这 五 种 学 习 算 法 ， 
表面 上 看 兰 别 很 大 ， 其 实 也 只 十 单一 通用 学 习 算 法 的 五 个 方面 。 


旅程 还 远 远 没有 结束 。 我 们 还 没有 终极 算法 ， 只 是 管 到 它 可 能 长 
什么 样 。 如 果菜 些 基 本 的 东西 还 找 不 到 ， 有 些 东 西 沉 浸 在 其 历史 当 
中 ， 而 我 们 在 本 领域 中 无 法 看 到 ， 那 会 怎么 样 呢 ? 我 们 需要 一 些 与 之 
前 想法 不 一 样 的 新 想法 。 这 就 是 我 写本 书 的 原因 一 一 让 你 开始 思考 。 
我 在 华盛顿 大 学 天 于 机 器 学 习 的 夜校 教 课 。2007 年 ， 网 飞 大 奖 宣 布 后 
不 久 ， 我 提议 将 其 作为 班级 项 目 中 的 一 个 。 我 班 上 的 一 位 学 生 杰 
夫 . 霍 伯 特 被 它 迷 住 了 ， 并 在 课程 结束 时 继续 钻研 这 个 项 目 。 在 他 第 一 
次 了 解 机 器 学 习 的 两 年 之 后 ， 他 最 终 成 为 获胜 组 的 成 员 ， 当 时 总 共有 
两 个 获胜 组 。 现 在 轮 到 你 了 。 你 可 以 从 UCI 数 据 库 上 下 载 一 些 数 据 集 
(archive.ics.uci.edu/ml/) 并 开始 这 场 比赛 。 当 你 做 好 准备 时 ， 可 以 对 


Kaggle.com 进 行 了 解 ， 这 是 一 个 专门 组 织 管理 机 器 学 习 比 赛 的 网 站 ， 
然后 挑 一 两 个 链接 并 点 击 进 入 。 当 然 ， 如 采 你 招募 一 两 个 朋友 来 和 你 
一 起 工作 ， 那 样 会 更 好 玩 。 如 果 你 也 着 迷 了 ， 殊 像 杰 夫 那样 ， 最 后 变 
成 一 个 专业 的 数据 科学 家 ,那么 欢迎 进入 世界 上 最 让 人 陶醉 的 领域 。 
如 果 你 发 现 目 己 不 满意 于 当前 的 学 习 算 法 ， 那 束 发 明 新 的 算法 一 一 或 
者 只 是 出 于 好 玩 而 发 明 。 我 最 息 切 的 希望 束 是 ， 你 对 这 本 书 的 反应 ， 
忠 像 我 对 读 的 第 一 本 人 工 稼 能 书 的 反应 一 样 ， 这 已 经 过 去 20 多 年 ， 这 
个 领域 有 太 多 的 事情 要 做 ， 我 不 知道 从 何 开始 。 如 有 果 有 一 天 你 发 明了 
终极 算法 ， 请 不 要 市 着 它 跑 到 专利 局 ， 而 是 开放 货源 。 终 极 算法 应 被 
任何 人 或 者 组 织 拥有 ， 这 一 点 太 重 要 了 。 它 应 用 的 速度 会 比 你 为 它 申 
请 许可 的 速度 要 快 。 但 如 采 你 打算 创业 ， 记 得 让 每 个 世界 上 的 男人 、 
女人 、 孩 子 都 能 享受 它 。 


无 论 是 出 于 好 奇 ， 还 是 专业 兴趣 ， 你 读 了 这 本 书 ， 我 希望 和 你 的 
朋友 、 同 事 分 诗 你 学 到 了 什么 。 机 器 学 习 接 触 到 我 们 每 个 人 的 生活 ， 
而 我 们 想 用 它 来 做 什么 也 由 目 己 决定 。 帝 着 你 对 机 絮 学 习 的 新 了 解 ， 
你 现在 处 于 更 好 的 位 置 来 思考 诸如 隐私 、 数 据 分 享 、 工 作 的 未 来 、 机 
俐 人 之 间 的 战争 、 人 工 状 能 的 承 话 与 危险 之 类 的 问题 ， 而 且 了 解 到 这 
一 点 的 人 越 多 ， 我 们 越 有 可 能 避免 圈套 ， 并 找到 正确 的 路 。 这 也 是 我 
写本 书 男 外 一 个 主要 原因 。 统 计 学 家 知道 做 预测 不 容易 ， 尤 其 十 对 未 
来 的 预测 ， 而 计算 机 科学 家 知道 预测 未 来 的 最 佳 方法 惑 是 创造 未 来 ， 
但 未 经 检验 的 未 来 不 值得 创造 。 


感谢 你 让 我 做 你 的 向 导 。 我 想 送 给 你 一 份 临别 礼物 。 和 牛顿 说 过 ， 
他 束 像 一 个 在 沙滩 上 玩 要 的 男孩 ， 这 边 捡 一 枚 鹅卵石 ， 那 边 擒 一 块 贝 
过， 而 真理 的 大 海 就 在 他 面前 ， 等 着 他 去 发 现 。300 年 后 ， 我 们 已 经 收 
集 了 一 些 了 不 得 的 物 卵 石和 贝 膏 ， 但 大 片 未 被 发 现 的 海 立 仍 然 延 伸 至 
远 处 ， 内 烁 着 希望 的 光辉 。 我 的 礼物 束 是 一 艘 船 一 一 机 器 学 习 。 现 在 
该 是 时 候 扬 帆 起 航 了 ! 


任 谢 


首先 ， 我 要 感谢 在 科学 探险 历程 中 的 同伴 : 我 的 学 生 、 合 作 人 、 
同事 以 及 在 机 器 学 习 领 域 的 每 个 人 。 这 是 你 的 书 ， 也 是 我 的 书 。 我 布 
望 你 能 原谅 我 过 于 简化 以 及 删改 的 处 理 ， 以 及 本 书 有 些 部 分 稀奇 古怪 
的 写作 方式 。 


我 对 在 不 同 阶 段 阅读 并 评价 本 书 初 稿 的 所 有 人 表示 感谢 ,包括 近 
克 ' 贝 尔 菲 奥 尼 、 列 亚 戈 :多 明 戈 斯 、 奥 伦 : 埃 齐 奥 尼 、 亚 伯 : 弗 里 秩 、 有 罗 
动 - 金 斯 、 阿 龙 - 哈 勒 维 、 大 卫 - 伊 斯 雷 尔 - 考 次 、 克 洛 伊 : 基 顿 、 加 里 - 马 库 
斯 、 雷 . 称 尼 、 遇 文 墨 菲 、 弗 兰 齐 . 勒 斯 纳 、 本 . 塔 斯 卡 。 同 时 也 感谢 那 
些 给 予 我 建议 、 人 信息， 或 者 各 种 帮助 的 人 ， 包 括 淘 姆 ' 格 里 菲 斯 、 大 卫 . 
赫 殉 受 、 汉 娜 : 布 基 、 艾 伯 特 - 拉 斯 洛 ' 巴 拉巴 希 、 燕 乐 存 、 朱 色拉 ' 琢 
斯 、 迈 克 : 摩 根 、 彼 得 :诺尔 维 格 、 朱 人 迪 亚 : 珀 尔 、 格 雷 戈 里 : 皮 亚 特 斯 基 - 
耶 比 多 、 塞 巴 斯 蒂 安 ' 厌 。 


我 很 邓 运 能 在 一 个 非常 独特 的 地 方 工作 ， 也 束 古 华盛顿 大 学 的 计 
算 机 科学 与 工程 系 。 我 还 要 感谢 乔 什 ' 特 伦 鲍 姆 ， 还 有 他 团队 里 的 每 个 
人 ， 因 为 他 们 在 矿 省 理工 学 院 组 织 轮 休假 ， 在 此 期 间 我 才 开始 了 本 书 
的 写作 。 多 亏 了 吉姆 . 沫 文 ， 我 不 知 疲倦 的 代理 人 ， 因 为 他 “ 掉 进 陷 
阱 ”他 是 这 么 说 的 ) 并 把 消息 传 出 去 。 还 要 感谢 拉 文 :格林 伯 格 .罗斯 
坦 的 每 个 人 。 谢 谢 K 丁 凯 茉 蒜 ， 我 能 干 的 编辑 ， 硕 助 我 把 这 本 书 变 得 
更 好 〈 一 章 又 一 章 、 一 行 又 一 行 ) 。 我 要 感谢 Bosic Books 的 每 个 人 。 


我 还 要 感谢 那些 过 去 这 么 多 年 资助 过 我 的 研究 组 织 ， 包 括 阿波 罗 
斯 塔 尔 公 司 (ARO) 、DAPRA、EFCT、 美 国 科 学 基金 会 、 福 特 、 谷 
歌 、IBM、 柯 达 、 雅 虎 、 斯 隆基 金 会 。 


最 后 ， 我 要 感谢 家 人 的 爱 与 文 持 。 


延伸 阅读 


为 了 让 广大 读者 更 深入 地 探索 机 器 学 习 世 界 ， 我 们 特此 附 上 延伸 
阅读 部 分 。 此 部 分 包含 大 量 文献 ， 对 读者 深入 学 习 大 有 人 神 益 。 同 时 ， 
为 了 你 证 准确 性 ， 我 们 保持 了 此 部 分 中 涉及 的 和 人 名、 文献 、 出 版 信息 
等 内 容 的 原 狐 ， 以 纵 读 者 。 布 户 读 者 朋友 能 通过 本 书 和 这 些 文献 进入 
丰 刘 多 彩 的 机 融 学 习 世 界 。 


如 果 本 书 激发 了 你 对 机 器 学 习 及 其 相关 问题 的 兴趣 ， 那 么 在 本 部 
分 你 会 找到 许多 建议 。 本 书 的 目的 不 是 面面俱到 ， 而 是 为 了 引导 人 们 
了 解 与 机 器 学 习 相 关 的 知识 (正如 Borges 说 的 那样 ) 。 我 尽量 为 读者 
选择 合适 的 书籍 和 文章 。 专 业 类 出 版 物 的 阅读 至 少 需 要 一 些 计 算 、 统 
计 或 者 数学 领域 的 背景 知识 ， 我 们 会 以 星 号 (*) 来 标记 这 些 出 版 物 。 
即使 这 些 是 专业 出 版 物 ， 对 读者 来 说 也 可 以 接受 很 大 一 部 分 。 我 没有 
把 着 号 、 期 刊 号 、 页 码 列 出 来 ， 因 为 网 站 使 这 些 变 得 多 余 ， 对 于 出 版 
商 的 地 址 来 说 也 同样 如 此 。 


如 果 你 想 从 整体 上 对 机 器 学 习 了 解 更 多 ， 网 络 课程 束 是 开始 学 习 

的 好 选择 。 并 非 巧 合 ， 与 本 书 内 容 最 为 相近 的 就 是 我 教 的 这 [ 门 课 
(www.coursera.org/course/machinelearning) 。 也 可 以 参考 安德鲁 . 恩 格 
的 课程 (www.coursera.org/course/ml) 和 亚 瑟 : 阿 布 : 称 斯 塔 法 的 课程 
(http://work.caltech.edu/telecourse.html) 。 接 下 来 就 要 阅读 教材 。 和 
本 书 最 相近 且 最 容易 接受 的 一 本 教材 束 是 Tom Mitchell 的 Machine 
Learning* (McGraw-Hill, 1997) 。 更 现代 且 更 精确 的 教材 包括 Kevin 
Murphy 的 Machine Learning: A Probabilistic Perspective ( 麻 省 理工 出 版 
社 ，2012) ,Chris Bishop 的 Pattern Recognition and Machine Learning* 
( Springer, 2006) ， 以 及 An Introduction to Statistical Learning with 


Application in Ri* (作者 是 Gareth James 、Daniela Witten 、 Trevor 
Hastie、Rob Tibshirani ，Springer 2013)。 我 的 文 草 “A few useful things 
to know about machine learning” (Communications of the ACM, 2012 ) 
总 结 了 一 些 关 于 机 器 学 习 的 传统 知识 ， 这 些 知 识 在 教材 中 往往 较为 隐 
办 ， 且 可 作为 开始 阅读 本 书 之 前 的 参考 资料 。 如 采 你 懂得 如 何 编程 ， 
并 想 尝 试 机 嚣 学习， 可 以 从 众多 开源 软件 包 开 始 ， 例 如 ，Weka 

(www.cs.waikato.ac.nz/ml/weka) 。 有 了 两 本 重要 的 机 器 学 习 杂 志 : 

《Machine Learning»》 和 《Journal of Machine Learning Research》。 
年 举办 的 机 器 学 习 的 重要 会 议 包括 机 器 学 习 国 际会 议 (International 
Conference on Machine Learning ) 、 际 神 经 信息 处 理 大 会 

(Conference on Neural Information Processing Systems) 、 国 际 学 术 和 
技术 开发 研讨 会 (International Conference on Knowledge Discovery and 
Data Mining) 。 在 http:/videolectures.net 上 有 众多 关于 机 器 学 习 的 访 
谈 。 网 站 wwwKDnuggets.com 征 机 器 学 习 的 一 站 式 服务 店 ， 你 可 以 注 
册 账 号 ， 获 得 实时 通信 ， 了 解 最 新 发 展 动态 。 


序 


早 前 列举 的 机 屡 学 习 对 日 常生 活 的 影响 可 在 George John 

( SIGKDD Explorations, 1999 ) 所 车 的 “Behind-the-scenes data 
mining” 中 找到 ， 序 言 部 分 “日 常生 活 ”* 段 落 的 灵感 也 源 于 此 。Eric 
Siegel 的 书 Predictive Analytics (Wiley, 2013) 探索 了 众多 机 器 学 习 的 应 
用 。 麦 肯 锡 全 球 人 研究 所 2011 年 的 报告 Big Data: The Next Frontier /or 
Innovation, Competition, and Productivity 对 “大 数据 ”这 一 术语 进行 了 推 
广 。 在 该 报告 中 ，Viktor Mayer-Schonberger 和 Kenneth Cukier 所 著 的 
Big Data: A Revolution That Will Change How We Live, Work, and Think 
(Houghton Mifflin Harcourt, 2013) 一 文 ， 讨 论 了 许多 由 大 数据 引发 的 
问题 。 我 了 解 人 工 物 能 的 教材 是 Elaine Rich 所 著 的 Artificial Intelligenc* 


(McGraw-Hill, 1983) 。 现 在 通用 的 版 本 是 Stuart Russel 和 Peter Norvig 
所 著 的 Artificial Intelligence: A Modern Approac (3rd., Prentice Hall, 
2010) 。Nils Nilsson 的 The Quest for Artificial Intelligence (Cambridge 
University Press, 2010) 介绍 了 早期 的 人 工 智 能 。 
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John MacCormick 写 的 Nine Algorithms That Changed the Future 
(Princeton University Press, 2012) 一 书 介 绍 了 在 计算 机 科学 中 一 些 最 
重要 的 算法 ， 其 中 有 一 章 是 关于 机 器 学 习 的 。Sanjoy Dasgupta 、 
Christos Papadimitriou 和 和 Umesh Vazirani 写 的 Algotithms* (McGraw-Hill, 
2008) 一 书 是 介绍 该 主题 的 简明 教材 。Danny Hillis 写 的 The Pattern on 
the Stone (Basic Books, 1998) 解释 了 计算 机 如 何 运 转 。Walter Isaacson 
在 The Innovators (Simon & Schuster, 2014) 一 书 中 生动 描述 了 计算 机 
科学 的 历史 。 


SumitGulwani 、William Harris 和 Rishabh Singh 写 的 “Spreadsheet 
data manipulation using examples” (Communications of the ACM, 2012 ) 
一 文 束 是 一 个 例 了 于 ， 体 现 了 计算 机 如 何 通过 观察 用 户 来 进行 目 我 编 
程 。Tom Davenport 和 Jeanne Harris 的 Competing on Analytics ( HBS 
Press, 2007) 一 书 介绍 了 在 商务 领域 如 何 使 用 预测 分 析 。 Steven Levy 
在 In the Plex (Simon & Schuster, 2011) 一 书 中 高 水 平地 介绍 了 谷歌 技 
术 如 何 起 作用 。Carl Shapiro 和 Hal Varian 在 Information Rules (HBS 
Press, 1999) 一 书 中 解释 了 网 络 的 影响 。Chris Anderso 在 The Long Tail 

(Hyperion, 2016) 一 书 中 介绍 了 长 尾 现象 。 


由 Tony Hey 、Stewart Tansley 、Kristin Tolle 主 编 的 The Fourth 
Paradigm (Microsoft Research, 2009) 一 书 探索 了 通过 数据 密集 型 运算 
来 实现 科学 转型 。James Evans 和 Andrey Rzhetsky 在 “Machine 


Science” (Science, 2010) 一 文中 讨论 了 一 些 计算 机 做 出 科学 发 现 的 不 
同方 法 。Pat Langley 等 人 写 的 Scientific Discovery: Computational 
Explorations of the Creative Processes* (MIT Press, 1987) 一 书 介绍 了 
目 动 发 现 科 学 规律 的 一 系列 方法 。Usama Fayyad 、George Djorgovski 
和 Nicholas Weir 在 “From Digitized Images to Online Catalogs” (AI 
Magazine ，1996) 一 文中 介绍 了 SKICAT 项 目 。Niki Wale 的 Machine 
Learning in Drug Discovery and Development ( Drug Development 
Research, 2001) 一 文正 好 对 这 个 问题 进行 了 概述 。Ross King 等 人 写 的 
The Automation of Science (Science, 2009) 一 文 介绍 了 机 器 人 科学 家 
Adam ° 


Sashalssenberg 的 The Victory Lab (Broadway Books, 2012) 一 书 仔 
细 分 析 了 在 政治 领域 中 数据 分 析 的 用 途 ， 他 的 How President Obama’s 
Campaign Used Big Data to Rally Individual Votes ( MIT Technology 
Review，2013) 一 文告 诉 读者 迄今 为 止 数 据 分 析 的 最 大 功绩 。Nate 
Silver 的 The Signal and the Noise (Penguin Press, 2012) 一 书 中 的 一 章 
介绍 了 他 集中 民意 的 方法 。 


P W. Singer 的 Wired for War (Penguin, 2009) 一 书 主要 介绍 了 机 器 
人 战争 。Richard Clarke 和 Robert Knake 的 Cyber War (Ecco, 2012) 一 书 
融 啊 了 互联 网 战争 的 警钟 。 我 将 机 器 学 习 与 博 穿 论 结合 打败 对 手 ， 这 
个 观点 开始 是 以 课题 的 形式 呈现 ， 后 来 在 Nilesh Dalvi 等 人 的 
Adversarial Classification* ( Proceedings of the Tenth International 
Conference on Knowledge Discovery and Data Mining, 2004) 上 进行 了 介 
绍 。Walter Perry 等 人 的 Predictive Policing (Rand, 2013) 引导 人 们 如 何 
在 警察 工作 中 使 用 解析 学 。 


Laurie von Melchner 、Sarah Pallas 和 Mriganka Sur 的 Visual 
Behaviour Mediated by Retinal Projections Directed to the Auditory 
Pathway (Nature, 2000) 一 文 介 绍 了 和 雪 和 貂 大 脑 重 新 布线 的 实验 。Joanna 
Moorhead 的 Seeing with Sound (Guardian， 2007 ) 和 
www.benunderwood.com 这 个 网 站 介绍 了 Ben Underwood 的 故事 。 Otto 
Creutzfeldt 在 Generality of the Functional Structure of the Neocortex 

(Naturwissenschaften, 1977) 一 文中 表明 皮质 是 一 种 算法 。Vernon 
Mountcastle 在 “An Organizing Principle for Cerebral Function: The Unit 
Model and the Distributed System” 一 文中 也 做 了 同样 的 阐述 ， 这 篇 文章 
收录 在 Gerald Edelman 和 Vernon Mountcastle 编 辑 的 The Mindful Brain 

(MIT Press, 1978) 一 书 中 。Gary Marcus、Adam Marblestone 和 Tom 
Dean 在 The Atoms of Neural Computation (Science, 2014) 中 提出 反对 


= 


意见 。 


Alon Halevy 、 Peter Norvig 和 Fernando Pereira 在 The Unreasonable 
Effectiveness of Data (IEEE Intelligent Systems, 2009) 中 赞成 机 器 学 习 
是 新 的 发 现 范 式 。Benoit Mandelbrot 在 同名 书 (Freeman, 1982) 中 探 
索 大 自然 中 的 分 形 几 何 。James Gleick 的 Chaos (Viking, 1987) 一 书 讨 
论 并 描述 了 曼 德 布 洛 特集 合 。Edward Frenkel 的 Love and Math (Basic 
Books, 2014) 一 书 介绍 了 朗 兰 效 纲领 ， 这 是 一 个 尝试 将 数学 的 不 同 子 
域 联 合 起 来 的 研究 。Lance Fortmnow 的 The Golden Ticket (Princeton 
University Press,2013) 一 书 介 绍 的 是 NP 完全 问题 和 P=NP 问 题 。 
Charles Petzold 的 The Annotated Turing (Wiley，2008) 通过 重新 研究 
图 灵 最 初 天 于 图 灵机 屁 的 论文 来 对 图 灵机 器 进行 解释 。 


Douglas Lenat 等 人 著 的 “Cyc: Toward programs with common sense” 
* (Communication of the ACM, 1990) 一 文 就 介绍 了 了 Cyc 项 目 。Peter 
Norvi 在 “On Chomsky and the Two Cultures of Statistical 
Learning” (http://norvig.com/chomsky.html) 一 文中 讨论 Noam Chomsky 
对 于 数字 学 习 的 批评 。Jerry Fodor 的 The Modularity of Mind (MIT 


Press, 1983) 一 书 总 结 了 他 关于 大 脑 如 何 运 转 的 观点 。Leon Wieseltier 
的 “What Big Data will Never Explain” (New Republic, 2013) 和 Andrew 
McAfee 的 “Pundits，Stop Sounding Ignorant about Data” ( Harvard 
Business Review,2013) 中 揭示 了 围绕 大 数据 能 做 和 不 能 做 之 间 的 矛 
盾 。 Daniel Kahneman 在 Thinking, Fast and Slow ( Farrar, Straus and 
Giroux, 2011) 一 书 的 第 21 章 解释 了 算法 为 什么 可 以 打败 感官 直觉 。 

David Patterson 在 “Compnuter Scientists May Have What it Takes to Help 
Cure Cancer” (New York Times, 2011) 一 文中 证 明了 计算 与 数据 在 与 瘤 
症 的 斗争 中 所 起 的 作用 。 


更 多 学 派 关 于 如 何 获得 主 算法 的 观点 在 以 下 相应 部 分 中 会 提 到 。 
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休 谍 的 归纳 法 经 典 公 式 出 现在 A Treatise of Human Nature (1739) 
的 I 养 中 。 因 为 “The Lack of a Priori distinctions between Learning 
Algorithms” (Neural Computation, 1996) 一 文中 的 归纳 推理 ，David 
Wolpert 得 出 了 “天 下 没有 免费 的 午餐 定理。 我 在 “Toward Knowledge- 
Rich Data MJining” (Data Mining and Knowledge Discovery 2007) 一 文 
中 讨论 移 验 知识 在 机 赂 学 习 中 的 重要 性 ， 并 在 “The role of Occam’s 
razor in knowledge discovery” (Data Mining and Knowledge Discovery， 
1999) 一 文中 讨论 了 对 奥 卡 姆 剃刀 理论 的 误 读 。 在 Nate Silver 的 The 
Signal and the Noise (Penguin Press, 2012) 一 书 中 ， 过 拟 合 是 其 重要 主 
题 之 一 ， 他 称 之 为 “你 绝对 没有 听 过 的 最 重要 的 科学 问题 ”。John 
Ioannidis 的 “Why most published research findings are false”* ( PLoS 
Medicine, 2005) 一 书 讨 论 了 在 科学 领域 中 ， 将 巧合 发 现 误 以 为 是 真 发 
现 的 问题 。 在 “Controlling the false rate: A practical and powerful 
approach to multiple testing”* (Journal of the Royal Statistical Society， 


Series B, 1995) 一 文中 ，Yoav Benjamini 和 Yosef Hochberg 提 出 了 反对 
该 观点 的 方法 。 在 Stuart Geman 、Elie Bienenstock 和 Renk Doursat 
的 “Neural networks and the bias/variance dilemma” (Neural Computation, 
1992) 一 文中 展示 了 方差 分 解 的 过 程 。Pat Langley 的 “Machine learning 
as an experimental science” (Machine Learning, 1998) 一 文 讨论 了 机 器 
学 习 中 实验 法 的 作用 。 


William Stanley Jevons 在 The Principles of Science (1874) 一 书 中 
首次 提出 了 将 归纳 法 视 作 演 绎 法 的 反问 。Steve Muggleton 和 Wray 
Buntine H “Machine learning of first-order predicates by inverting 
resolution”* ( Proceedings of the Fifth International Conference on 
Machine Learning, 1988) 一 文 首先 提出 在 机 器 学 习 中 使 用 逆 演 绎 。 
Saso Dzeroski 和 Nana Lavrac 主编 的 书 Relational Data Mining* 

(Springer, 2001) 介绍 了 归纳 逻辑 编程 这 个 领域 ， 这 个 领域 研究 的 是 
逆 演 绎 。Peter Clark 和 Tim Niblett 在 “The CN2 Induction Algorithm”* 

(Machine Learning, 1989) 一 文中 总 结 了 主要 的 米 夏 莱克 样式 规则 归 
纳 算法 。Rakesh Agrawal 和 Ramakrishnan Srikant 的 “Fast algorithms for 
mining association rules”* (Proceedings of the Twentieth International 
Conference on Very Large Databases, 1994) 一 文 介绍 了 零售 商 使 用 的 控 
掘 规 则 的 方法 。Ashwin Srinivasan、Ross King、Stephen Muggleton 和 
Michael Sternberg 的 “Carcinogenesis predictions using inductive logic 


programming” (Intelligent Data Analysis in Medicine and Pharmacology, 


1997) 一 文 介绍 了 规则 归纳 法 用 于 预测 癌症 的 例子 。 


J. Ross Quinlan 的 C4.5: Programs for Machine Learning*+ (Morgan 
Kaufmann, 1992) ， 以 及 Leo Breiman 、Jerome Friedman 、Richard 
Olshen 和 Charles Stone 的 Classification and Regression Trees* (Chapman 
and Hall, 1984) 两 本 书 提 出 了 两 大 主要 的 决策 树 学 习 算 法 。Jamie 
Shotton 等 人 的 “Real-time human pose recognition in parts from single 
depth images”* (Communications of the ACM, 2013) 一 文 解释 了 微软 的 


Kinect 如 何 利 用 决策 树 来 追踪 玩家 的 动作 。Andrew Martin 等 人 写 
的 “Competing approaches to predicting Supreme Court decision 
making” (Perspective on Politics, 2004) 一 文 介绍 了 决策 树 在 预测 最 高 
法 院 投票 中 如 何 打败 法 律 专家 ， 并 展示 了 大 法 官 桑 德 拉 . 戴 :奥康 纳 的 决 
策 树 。 


Allen Newell 和 Herbert Simon 在 “Computer science as empirical 
enqguiry: Symbols and search” (Communications of the ACM, 1976) 一 文 
中 提出 假设 ， 认 为 所 有 智能 都 是 符号 操纵 。David Marr 在 Vision* 

( Freeman, 1982 ) 一 书 中 提出 信息 处 理 的 三 个 层面 。 Ryszard 
Michalski、Jaime Carbonell 和 Tom Mitchell 主 编 的 Machine Learning: An 
Artificial Intelligence Approach* (Tioga, 1983) 一 书简 单 介 绍 了 机 器 学 
习 中 象征 主义 研究 的 早期 成 果 。Paul Smolensky 的 “Connectionist AL 
symbolic AL and the brain”* (Artificial Intelligence Revie, 1987) 一 文 对 
符号 论 模 型 提出 了 联结 主义 的 观点 。 


第 四 章 


Sebastian Seung 的 Connectome (Houghton Mifflin Harcourt, 2012 ) 
一 书 对 神经 科学 、 神 经 联结 组 学 、 对 大 脑 进 行 逆 癌 工 程 的 严峻 挑战 做 
了 浅显 易 懂 的 介绍 。David Rumelhart 、James McClelland 主编 的 
Parallel Distributed Processing* (MIT Press, 1986) 一 书 是 20 世 纪 80 年 
代 处 于 党 盛 时 期 的 联结 主义 的 “圣经 >”。James Anderson 和 Edward 
Rosenfeld 编 辑 的 Neurocomputing* (MIT Press, 1988) 一 书 整 理 了 许多 
篇 经 典 的 联结 主义 论文 ， 包括 : McCulloch 和 Pitts 的 第 一 批 神经 模型 ; 
Hebb 的 Hebb 规 则 ; Rosenblatt 的 感知 机 ; Hopfield 的 Hopfield 网 络 ; 
Ackley、Hinton 和 Sejnowski 的 玻 尔 效 曼 机 ; Sejnowski 和 Rosenberg 的 
NETtalk; Rumelhart 、 Hintonation 和 Williams 的 反问 传播 。 Yann 


LeCun、Lekon Bottou、Genevieve Orr 和 Klaus-Robert Miiller 的 “Efficient 
backdrop”* 一 了 广 由 Genevieve Or 和 Klaus-Robert Miiller 收 录 到 Neural 
Networks: Tricks of the Trade (Springer, 1998) 一 书 中 ,提出 了 一 些 使 
反问 传播 起 作用 的 重要 技巧 。 


Robert Trippi 和 Efraim Turban 编 辑 的 Neural Networks in Finance and 
Investing* (McGraw-Hill 1992) 收录 了 关于 神经 网 络 在 金融 领域 应 用 
的 文章 。Todd Jochem 和 Dean Pomerleau 的 “Life in the fast lane: The 
evolution of an adaptive vehicle control system” (AT Magazine, 1996) 一 
区 介绍 了 ALVINN 无 人 鸭 驶 汽车 工程 。Paul Werbos 的 博士 论文 是 
Beyond Regression: New Tools for Prediction and Analysis in the 
Behavioral Science* (Harvard University 1974) 。 Arthur Bryson 和 和 Yu- 
Chi Ho 在 Applied Optimal Control* (Blaisdell, 1969) 一 书 中 介绍 了 他 们 
反 回 传播 的 早期 版 本 。 


Yoshua Bengio 的 Learning Deep Architectures for AI* (Now, 2009) 

一 书简 要 介绍 了 深度 学 习 。Yoshua Bengio、Patrice Simard 和 Paolo 
Frasconi 的 “Learning long-term dependencies with gradient descent is 
difficult” (IEEE Transactions on Neural Networks, 1994) 一 文 介 绍 了 反 
回 传 播 中 的 信号 误差 扩散 问题 。John Markoff 的 “How many computers 
to identify a cat?16,000” (New York Times, 2012) 一 书 对 谷歌 的 脑 计划 
及 其 结果 进行 汇报 。Yann LeCun、Léon Bottou、Yoshua Bengio 和 
Patrick Haffner 的 “Gradient-based learning applied to _ document 
recognition”* (Proceedings of the IEEE, 1998) 一 书 介 绍 了 卷 积 神经 网 
络 、 当 前 深度 学 习 冠 军 。Jonathon Keats 的 “The $1.3B quest to build a 
supercomputer replica of a human brain” (Wired, 2013) 介绍 了 欧盟 的 大 
脑 模 仿 项 目 。Thomas Insel 、Story Landis 和 Francis Collins 的 “The NIH 
BRAIN Initiative” (Science, 2013) 一 文 介绍 JBRAIN 计 划 。 
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Steven Pinker 在 How the Mind Works (Norton, 1997) 一 书 的 第 二 章 
中 总 结 了 符号 学 者 对 联结 主义 模型 的 批判 。Seymour Paper 在 “One AT 
or Many?” (Daedalus, 1988) 一 文中 争论 性 地 发 表 了 自己 的 看 法 。 
Gary Marcus 的 The Birth of the Mind (Basic Books, 2004) 一 书 中 解释 
了 进化 如 何 促 成 人 类 大 脑 复杂 的 功能 。 


第 五 革 


Josh Bongard 的 “Evolutionary robotics” (Communication of the ACM， 
2013) 一 文 讨论 了 Hod Lipson 以 及 其 他 人 关于 进化 机 器 人 的 作品 。 
Steven Levy 的 Artificial Lif (Vintage，1993) 一 书 也 游 贞 了 一 遍 数 字 化 
这 个 “动物 园 ”*， 从 虚拟 世界 中 计算 机 创造 的 动物 到 遗传 算法 。Mitch 
Waldrop 的 Complexity 〈Touchstone,，1992) 一 书 第 五 章 讲 述 了 John 
Holland 的 故事 ， 以 及 遗传 算法 研究 前 儿 十 年 的 情况 。David Goldberg 
的 Genetic Algorithms in Search, Optimization, and Machine Learning* 

(Addison-Wesley 1989) 一 书 对 遗传 算法 进行 了 标准 介绍 。 


在 T.J. M.Schopf 主 编 的 Models in Paleobiology (Freeman, 1972) 一 
书 中 ，Niles Eldredge 和 Stephen Jay Gould 发 表 了 “Puntuatedequilibria: An 
alternative to phyletic gradualism” 一 文 ， 这 篇 文章 中 提出 了 他 们 的 间断 
平衡 理论 。Richard Dawkins 在 The Blind Watchmaker (Norton, 1986) 一 
书 的 第 九 章 批评 了 该 观点 。 在 Richard Sutton 和 Andrew Barto 的 
Reinforcement Learning* (MIT Press, 1998) 一 书 中 ， 第 二 章 讨论 了 探 
索 一 利用 境 。 在 Adaptation in Natural and Artificial System* 
(University of Michigan Press, 1975) 中 ，John Holland 提 出 了 自己 的 
解决 方法 及 其 他 观点 。 


John Koza 的 Genetic Programming* (MIT Press, 1992) 一 书 是 对 该 
范式 的 重要 参考 。 在 Minoru Asada 和 Hiroaki Kitano 编 写 的 RoboCup-98: 


Robot Soccer World Cup I1 (Springer, 1999) 一 书 中 ，David Andre 和 
Astro Teller 发 表 了 “Evolving team Darwin United”* 一 文 ， 这 篇 文章 中 介 
绍 了 进化 的 机 器 人 足球 队 。John Koza 、Forrest Bennett II、David 
Andre 和 Martin Keane 著 的 Genetic Programming JI ( Morgan 
Kaufmann, 1999) 一 书包 含 许 多 经 过 改进 的 电子 线路 。Danny Hillis 
在 “Co-evolving parasites improve simulated evolution as an optimization 
procedure”* (Physica D, 1990) 一 文中 提出 寄生 虫 有 助 于 进化 。AD 


iLivnat ~、 Christos Papadimitriou ~、 Jonathan Dushoff 和 Marcus Feldman 


在 “A mixability theory of the role of sex in evolution”* (Proceedings of 
the National Academy of Sciences, 2008) 一 文中 提出 ， 性 别 可 优化 可 混 
性 。Kevin Lang 的 文章 “Hill climbing beats genetic search on a Boolean 
circuit Synthesis problem of Koza's”* ( Proceedings of the Twelfin 
International Conference on Machine Learning, 1995) 对 遗传 编程 和 把 山 
法 进行 了 比较 。Koza 对 此 的 回应 见 “A response to the ML-95 paper 
entitled...”* ( unpublished; online at www.genetic— 
programming.com/jktahoe24page.html) 一 文 . 


在 “A new factor in evolution” (American Naturalist, 1896) 一 文 
中 ，James Baldwin 提 出 了 同名 反应 。Geoff Hinton 和 Steven Nowlan 
在 “How learning can guide evolution”* (Complex Systems, 1987) 一 文 
中 介绍 了 它 的 运用 。 鲍 人 德 温 效 应 是 Peter Tusrney、Darrell Whitley 和 
Russell Anderson 主 编 的 期 刊 Evolutionary Computation1996 年 的 一 个 特 
殊 问题 的 主题 。 


John Neville Keynes 的 The Scope and Method of Political Economy 


(Macmillan, 1891) 一 书 区 分 了 描述 性 和 规范 性 理论 之 间 的 区 别 。 
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Sharon Bertsch McGrayne 在 The Theory That Would Not Die (Yale 
University Press, 2011) 一 书 中 对 贝 叶 斯 主义 进行 了 介绍 ， 从 Bayes 到 
Laplace 再 到 现在 。Peter Hoff 的 A First Course in Bayesian Statistical 
Methods* (Springer, 2009) 一 书 则 对 贝 叶 斯 统计 进行 了 介绍 。 


在 Richard Duda 和 Peter Hart (Wiley, 1973) 的 Pettern Classification 
and Scene Analysi 关 一 书 中 ， 朴 素 贝 叶 斯 算法 被 首次 提 到 。 在 Essays in 
Positive Economics (University of Chicago Press, 1966) 一 书 中 ，Milton 
Friedman 发 表 了 自己 对 过 人 简 理 论 的 支持 。 朴 素 贝 叶 斯 在 过 滤 垃 圾 邮件 
中 的 应 用 则 出 现在 Joshua Goodman 、 David Heckerman 和 Robert 
Rounthwaite 的 “Stopping spam” (Scientific America, 2005) 一 文中 。 
Stephen Robertson 和 Karena Sparck Jones 的 “Relevance weighting of 


search terms”* (Journal of the American Society for Information Science, 


1976) 一 文 介绍 了 与 朴素 贝 叶 斯 相似 方法 在 信息 检索 中 的 应 用 。 


Brian Hayes 的 “First links in the Markov chain” (American Scientist, 
2013) 一 文 叙 述 了 马尔 可 夫 对 同名 链 的 创造 。Thorsten Brants 等 人 


的 “Large Language models in machine translation”* (Proceedings of the 


2007 Joint Conference on Empirical Methods in Natural Language 
Processing and Computational Natural Language Learning, 2007) 一 文 解 
释 了 合 歌 翻译 如 何 运行 。Larry Page 、Sergey Brin、Rajeev Motwani 和 
Terry Winograd HJ “The PageRank citation ranking: Bringing order to the 
Web” (Standford University technical report, 1998) 一 文 介绍 了 网 页 排 
序 算 法 及 其 在 网 页 上 游 动 的 说 明 。Eugene Chamiak 的 Statistical 
Language Learning* (MIT Press, 1996) 一 书 揭示 了 隐藏 的 马尔 可 夫 模 
型 的 工作 原理 。Fred Jelinek 的 Statistical Methods for Speech recognition 

(MIT Press, 1997) 一 书 描述 了 这 些 方法 在 语音 识别 领域 的 应 用 。 在 
David Forney 的 “The Viterbi algorithm: A personal history” (unpublished; 
online at arxiv.org/pdf/cs/0504020v2.pdf) 一 文中 ， 介 绍 了 隐 马 尔 可 夫 模 
型 式 的 推理 在 传播 中 的 情况 。Pierre Baldi 和 Sgren Brunak 的 


Bioinformatics: The Machine Learning Approach* (2nd ed., MIT Press, 
2001) 一 书 介绍 了 机 器 学 习 在 生物 学 以 及 隐 马 尔 可 夫 模 型 中 的 应 用 。 
Barry Cipra 的 “Engineers look to Kalman filtering for guidance” (SIAM 
News, 1993) 对 卡尔 曼 滤波 法 及 其 历史 、 应 用 进行 了 简要 介绍 。 


Judea Pearnl 关 于 贝 叶 斯 网 络 的 先锋 之 作出 现在 他 的 Probabilistic 
Reasoing in Intelligent Systems* (Morgan Kaufmann, 1988) 一 书 中 。 
Eugene Charniak 的 “Bayesian networks without tears”* (AI Magazine, 
1991) 一 文 很 大 程度 上 用 非 数 学 的 方法 对 贝 叶 斯 网 络 进 行 了 介绍 。 
David Heckerman 的 “Probabilistic interpretation for MYCIN’s certainty 
factors”* ( Proceedings of the Second Conference on Uncertainty in 
Artificial Intelligence, 1986) 一 文 解释 在 何 种 情况 下 ， 包 含 置 信和 度 估计 
的 规则 集 是 贝 叶 斯 网 络 的 合理 假设 ， 在 什么 情况 下 不 是 。Eran Segal 等 
人 的 “Module networks: Identifying regulatory modules and their 
condition-specific regulators from gene expression data” ( Nature 
Genetics, 2003) 一 文 就 是 贝 叶 斯 网 络 在 基因 调控 领域 的 一 个 应 用 。 
Ben PaynterH “Microsoft virus fighter: Spam may be more difficult to sthp 
than HIV” (Fast Company, 2012) 一 文 讲 述 David Heckerman 如 何 从 垃 
圾 邮件 过 滤器 中 获取 灵感 ， 并 利用 贝 叶 斯 网 络 设计 了 一 种 艾 汶 病 疫 
酝 。 概 率 性 的 或 者 “喧哗 >”OR 在 Pearl 的 书籍 中 得 到 了 解释 。M.A.Shwe 
等 人 的 “Probabilistic diagnosis using a reformulation of the INTERNIST- 
1/QMR knowledge base” 一 文 为 医学 诊断 介绍 了 一 种 “喧哗 ?>OR 贝 叶 斯 网 
络 。Kevin Murphy 的 Machine Learning* (MIT Press，2012) 的 26.5.4 部 
分 描述 了 谷歌 的 贝 叶 斯 网 络 在 广告 配置 方面 的 运用 。Ralf Herbrich 、 
Tom Minka 和 Thore Graepel 的 “TrueSkillTM: A Bayesian skill rating 
system”* (Advances in Neural Information Processing Systems 19, 2007) 


一 文 介绍 了 微软 的 游戏 评分 系统 。 


Adnan Darwiche 的 Modeling and Reasoning with Bayesian Networks* 
(Cambridge University Press, 2009) 一 书 解 释 了 贝 叶 斯 网 络 中 用 于 推 


理 的 主要 算法 。Jack Dongarra 和 Francis Sullivan 主编 的 Computing in 
Science and Engineering 期 刊 的 2000 年 的 1~2 月 刊 包 含 了 和 21 世 纪 前 十 位 
算法 有 关 的 文章 ， 包 括 马 尔 可 夫 链 蒙特 卡 洛 。Sebastian Thrun 等 人 
的 “Stanley: The robot that won the DARPA Grand Challenge” (Journal of 
Field of Robotics, 2006) 解释 了 同名 无 人 芍 驶 汽车 如 何 运行 。David 
Heckerman 的 “Bayesian networks for data mining”* (Data Mining and 
Knowledge Discovery, 1997) 一 文 总 结 了 用 于 学 习 的 贝 叶 斯 方法 ， 并 解 
释 如 何 从 数据 中 掌握 贝 叶 斯 网 络 。David MacKay 的 “Gaussian 
processes: A replacement for supervised neural networks?”* (NIPS tutorial 


notes, 1997; online at www.inference.eng.cam.ac.uk/mackay/gp.pdf) 一 文 


大 致 描述 了 贝 叶 斯 学 派 如 何 安排 网 络 入 侵 防火 墙 系统 。 


Dan Jurafsky 和 James Martin 的 Speech and Language Processing* 
(2nd ed., Prentice Hall, 2009) 一 书 的 9.6 部 分 讨论 了 在 语音 识别 中 对 词 
汇 概 率 进 行 加 权 的 必要 性 。 我 和 Mike Pazzani 关 于 朴素 贝 叶 斯 的 论文 


是 “On the optimality of the simple Bayesian classifier under zero-one 


loss”* (Machine Learning, 1997; expanded journal version of the 1996 
conference paper) 。 上 面 提 到 的 Judea Pearl 的 书 讨论 了 马尔 可 夫 网 络 和 
贝 叶 斯 网 络 。 计 算 机 视觉 中 的 马尔 可 夫 网 络 就 是 Adrew Blake、 
Pushmeet Kohli 和 Carsten Rother 主 编 的 Markov Random Fields for Vision 
and Image Processing*+ ( MIT Press, 2011) 这 本 书 的 主题 。John 
Lafferty 、Andrew McCallum 和 Fernando Pereira 的 “Conditional random 


fields: Probabilistic models for Segmenting and labeling sequence data”* 
(International Conference on Machine Learning, 2001) 一 文 介 绍 了 可 将 


条 件 释然 性 最 大 化 的 马尔 可 夫 网 络 。 


Jon Williamson 和 Dov Gabbay 主 编 的 Journal of Applied Logic2003 年 
的 一 期 特刊 探索 了 试图 将 概率 与 逻辑 结合 起 来 的 历史 。Michael 
Wellman 、 John Breese 和 Robert Goldman 的 “From Knowledge bases to 


decision models”* (Knowledge Engineering Review, 1992) 一 文 讨 论 了 
早期 一 些 解决 该 问题 的 智能 方法 。 
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Frank Abagnale 在 和 Stan Redding 一 起 创作 的 自传 Catch Me If You 
Can (Grosset& Dunlap, 1980) 中 详细 描述 了 他 的 英勇 事迹 。Evelyn 
Fix 和 Joe Hodges 最 初 关 于 最 近邻 算法 的 技术 报告 是 “Discriminatory 
analysis: Nonparametric discrimination: Consistency properties”* (USAF 
School of Aviation Medicine, 1951) 。 Belur Dasarathy 主 编 的 Nearest 
Neighbor (NN) Norms* 收 孙 了 许多 该 领域 中 的 重要 论文 。Chris 
Atkeson 、 Andrew Moore 和 Stefan Schaal 的 “Locally weighted 
learning” (Artificial Intelligence Review, 1997) 一 文 探索 了 局 部 线性 回 
归 。 Paul Resnick 等 人 的 “GroupLens: An open architecture for 
collaborative filtering of netnews”* ( Proceedings of the 1994 ACM 


Conference on Computer-Supported Cooperative Work, 1994) 一 文 介绍 了 
基于 最 近邻 的 首 个 协同 过 滤 系 统 。Greg Linden、Brent Smith 和 Jeremy 
York 的 “Amazon.com recommendations: Item-to-item collaborative 
filtering”* (IEEE Internet Computing, 2003) 一 文 介 绍 了 亚马逊 的 协同 
过 滤 系 统 〈 参 见 第 八 章 网 飞 的 延伸 阅读 部 分 | 。Mayer-Schonberger 和 
Cukier 的 Big Data 以 及 Siegel 的 Predictive Analysis (之 前 引用 过 ) 引用 
了 推荐 系统 对 于 亚 马 过 和 网 飞 销售 业绩 的 贡献 。1967 年 ，Tom Cover 和 
Peter Hart 写 了 一 篇 关于 最 近邻 的 误差 率 的 文章 一 “Nearest neighbor 
pattern classification”* (IEEE Transactions on Information Theory) 。 


Trevor Hastie 、 Rob Tibshirani 和 Jerry Friedman 的 The Elements of 
Statistical Learning* (2nd ed., Springer, 2009) 的 2.5 部 分 讨论 了 维 数 灾 
难 。Ron Kohavi 和 George John 的 “Wrappers for feature subset selection”* 


(Artificial Intelligence, 1997) 一 文 对 比 了 属性 选择 方法 。David Lowe 
的 “Similarity metric learning for a variable-kernel classifier”* (Neural 


Computation, 1995) 就 是 一 个 特征 赋 权 算法 的 例子 。 


Nello Cristianini 和 Bernhard Schokopf 的 “Support vector machines 
and kernel methods: The new generation of learning machines” (AI 
Magazine, 2002) 一 文 在 很 大 程度 上 运用 了 非 数 学 的 方法 来 介绍 支持 向 
量 机 。Bernhard Boser 、Isabel Guyon 和 Vladimir Vapnik 的 “A training 
algorithm for optimal margin classifiers”* ( Proceedings of the Fifth 


Annual Workshop on Computational Learning Theory, 1992) 。 Thorsten 
Joachims 的 “Text categorization with support vector 
machines” (Proceedings of the Tenth European Conference on Machine 
Learning, 1998) 是 第 一 篇 将 支持 向 量 机 运用 到 文本 分 类 中 的 论文 。 

Nello Cristianini 和 John Shawe-Taylor 的 An Introduction to Support Vector 
Machine (Cambridge University Press, 2000) 一 书 中 的 第 五 章 在 支持 问 
量 机 的 背景 下 简要 介绍 了 约束 优化 。 


Janet Kolodner 的 Case-Based Reasoning+ ( Morgan Kaufmann, 
1993) 是 该 主题 的 教材 。Evangelos Simoudis 的 “Using case-based 
retrieval for customer technical support”* (IEEE Export, 1992) 一 文 揭示 
了 它 在 求助 台中 的 运用 。“Rise of the software machines” (Economist, 
2013) 及 其 公司 的 主页 上 介绍 了 正 畸 诊疗 软件 的 Eliza 。Kevin Ashley 
在 Modeling Legal Argument* (MIT Press, 1991) 中 探索 了 基于 案例 的 
法 律 推理 。David Cope 在 “Recombinant music: Using the computer to 
explore musical style” (IEEE Computer, 1991) 一 文中 总 结 了 他 用 于 进 
行 自行 音乐 创作 的 方法 。Dedre Gentner 在 “Structure mapping: A 
theoretical framework for analogy”* (Cognitive Science, 1983) 一 文中 提 
出 了 构造 图 。James Somers 的 “The man who would teach machines to 
think”(Atlantic, 2013) 讨论 了 道格拉斯 : 霍 夫 斯 泰 特 对 于 人 工 智 能 的 看 
3 


我 的 文章 “Unifying instance-based and rule-based inducton”* 
(Machine Learning, 1996) 介绍 了 RISE 算法 。 


Alison Gopnik、Andy Meltzoff 和 Pat Kuhl 的 The Scientist in the Crib 
(Harper, 1999) 一 书 总 结 了 心理 学 家 关于 儿童 如 何 进 行 学 习 的 发 现 。 


1957 年 ，Stuart Lloyd 在 贝尔 实验 室 的 一 篇 技术 报告 “Least squares 
quantizataion in PCM”* (最 后 以 一 篇 论文 的 形式 出 现在 1992 年 的 IEEE 
Transactions on Information Theory) 中 ，k 均 值 聚 类 算法 首次 被 提出 。 
关于 最 大 期 望 算 法 的 原文 是 Arthur Dempster、Nan Laird 和 Donald Rubin 
的 “Maximum likelihood from incomplete data via the EM algorithm”* 

(Journal of the Royal Statistical Society B, 1977) 。Leonard Kaufman 和 
Peter Rousseeuw 的 Finding Groups in Data: An Introduction to Cluster 


Analysis* (Wiley，1990) 介绍 了 分 级 聚 类 及 其 他 方法 。 


Kar Pearson 在 1901 年 的 一 篇 名 为 “On lines and planes of closets fit to 
systems of points in space”* (Philosophical Magazine) 的 文章 中 提出 ， 
pricipal-component analysis 是 机 恬 学 习 及 统计 中 最 古老 的 技术 。 Scott 
Deerwester 等 人 的 文章 “Indexing by latent semantic analysis”* (Journal 
of the American Society for Information Science, 1990) 介绍 了 用 于 给 SAT 
作文 打分 的 一 种 降 维 方法 。Yehuda Koren、Robert Bell 和 Chris Volinsky 
在 “Matrix factorization techniques for recommender systems”* (JIEEF 
Computer, 2009) 中 解释 网 飞 式 协同 过 滤 系 统 如 何 运行 。Tenenbaum 、 
Vin de Silva 和 John Langford 的 “A global geometric framework for 
nonlinear dimensionality reduction”* (Science, 2000) 介绍 了 Isomap 算 


法 。 


Rich Sutton 和 Andy Barto 的 _ Reinforcement Learning: An 
JIntroduction* (MIT Press, 1998) 一 书 是 该 主题 的 标准 教材 。Marcus 
Hutter 的 Universal Artificial Intelligence* (Springer, 2005) 党 试 对 加 强 
学 习 进 行 理论 上 的 总 结 。“Some studies in machine learning using the 
game of checkers”* (IBM Journall of Research and Development, 1959 ) 
一 文 介绍 了 Arthur Samuel 关 于 学 习 如 何 下 国际 象棋 的 开创 性 研究 ， 这 
篇 文章 也 是 “机 器 学 习 ” 这 个 术语 最 早出 现 的 印刷 品 之 一 。Chris Watkins 
对 于 强化 学 习 问 题 的 构想 也 出 现在 他 的 博士 论文 Learning from Delayed 
Rewards* (Cambridge University, 1989) 中 。 Voloydymyr Mnih 等 人 
的 “Human-level control through deep reinforcement learning”* (Nature, 


2015) 一 文 介绍 了 DeepMind 用 于 视频 游戏 的 强化 学 习 算 法 。 


在 “A cognitive odyssey: From the power law of practice to a general 
learning mechanism and beyond” (Tutorials in Quantitative Methods for 
Psychology, 2006) 一 文中 重 述 了 组 块 的 发 展 。A/B 测 试 和 其 他 在 线 实 
验 技 术 在 Ron Kohavi、Randal Henne 和 Dan Sommerfield 的 “Practical 
guide to controlled experiments on the Web: Listen to your customers not to 


the HiPPO”* (Proceedings of the Thirteenth International Conference on 
Knowledge Discovery and Data Mining, 2007) 一 文 得 到 了 解释 。Eric 
Siegel 的 Predictive Analytics (Wiley, 2013) 一 书 第 七 章 的 主题 就 是 隆起 
建 模 ， 即 对 A/B 测 试 的 多 维度 概括 。 


Lise Getoor 和 Ben Tasker 编 辑 的 Introduction to Statistical Relational 
Learning*+ ( MIT Press, 2007 ) 一 书 探索 了 这 个 领域 的 主要 方 
法 。 “Mining social networks for viral marketing” (IEEE Intelligent 
Systems, 2005) 是 我 和 Matt Richardson 关 于 模拟 口头 语 的 文章 。 


第 九 章 


Zhi-Hua Zhou 的 Model Ensembles: Foundations and Algorithms* 
(Chapman and Hall 2012) 对 元 学 习 进 行 了 介绍 。 关 于 挫 县 的 最 早 文 
章 是 David Wolpert 的 “Stacked generalization?* ( Neural Networks, 
1992) 。Leo Breiman 在 “Bagging predicts”* (Machine Learning, 1996 ) 
中 介绍 了 装 袋 预测 法 ， 在 “Random forests”* (MchineLearing, 2001) 介 
绍 了 随机 森林 法 。Yoav Freund 和 Rob Schapire 的 “Experiment with a new 
boosting algorithm” ( Proceedings of the Thirteenth International 
Conference on Machine Learning, 1996) 一 文 介绍 了 助 推 法 。 


Anil Ananthaswamy 的 “I Algorithm” (New Scientist, 2011) 记录 了 
在 人 工 稼 能 中 将 逻辑 与 概率 结合 起 来 的 方法 。 我 和 Daniel Lowd 一 起 合 
写 的 Markov Logic: An Interface Layer for Artificial Intelligence* 

(Morgan & Claypool, 2009) 一 书 是 对 马尔 可 夫 风 辑 网 络 的 介绍 。 

Alchemy 网 站 http://alchemy.cs.washington.edu 也 包含 教程 、 孙 像 、 
MLN、 数 据 集 、 刊 物 和 其 他 系统 的 指示 器 等 。Jue Wang 和 了 Pedro 
Domingos 的 “Hybrid Markov logic works”* (Proceedings of the Twenty- 
Third AAAT Conference on Artificial Intelligence, 2008) 一 文 介绍 了 MLN 
在 DARPA 的 PAL 项 目 中 的 用 途 。 Stanley Kok 和 Pedro Domingos 
的 “Extracting semantic networks from text via relational clustering”* 


( Procedings of the Nineteenth Furopean Conference on Machine 
Learning, 2008) 一 文 介绍 了 我 们 如 何 运用 MLN 从 网 站 上 获取 语义 网 
络 。 


在 Mathias Niepert 和 Pedro Domingos 的 “Learning and inference in 
tractable probabilistic knowledge bases”* (Proceedings of the Thirty-first 
Conference on Uncertainty in Artificial Intelligence, 2015) 一 文 介绍 了 带 
有 类 层次 和 部 件 结 构 的 有 效 MLN 。Jeff Dean 等 人 的 “Large-scale 
distributed deep networks”* (Advances in Neural Information Processing 
Systems 25, 2012) 一 文 介 绍 了 谷歌 的 并 行 梯度 下 降 算 法 。Pedro 


Domingos 和 Geoff Hulten 的 “A general framework for mining massive data 


streams”* 人 (Journal of Computional and Graphical Statistics, 2003) 一 文 
总 结 了 我 们 用 于 掌握 开放 式 数 据 流 的 取样 方法 。David Weinberger 上 所 
写 “The machine that would predict the future” (Scientific American， 
2011) 的 主题 是 The FuturICT 项 目 。 


“Cancer: The march on malignancy” (Nature supplement, 2014) 一 
文 介绍 了 目前 对 抗 瘤 证 的 情况 。Chris Edwards 的 “Using patient data for 
personalized cancer treatments” (Communications of the ACM, 2014) 一 
文 介绍 了 有 可 能 会 发 展 为 CaneRx 的 早期 情况 。 Markus Covert 
的 “Simulating a living cell” (Scientific American, 2014) 解释 了 他 的 
队 如 何 构 建 整 个 感染 细菌 的 计算 机 模型 。Antonio Regalado 
的 “Breakthrough Technologies 2015: Internet of DNA” (MIT Technology 
Review, 2015) 总 结 了 全 球 基 因 组 学 与 健康 联盟 的 工作 。Jay 
Tenenbaum 和 Jeff Shrager 的 “Cancer: A Computational Disease that AI Can 
Cure” (AT Magazine, 2011) 一 文 介绍 了 常见 的 粮 症 。 


第 十 章 


Kevin Poulsen 的 “Love, acturaially” (Wired，2014) 介绍 了 一 个 人 
怎样 通过 机 器 学 习 来 在 OkOcupid 约 会 网 站 上 寻找 爱情 。Christian 
Rudder 的 Dataclysm (Crown, 2014) 挖掘 了 OkCupid 的 数据 ， 用 于 各 式 
各 样 的 想法 。Gordon Moore 和 Jim Gemmell 的 Tptal Recall (Dutton, 
2009) 一 书 探索 了 对 我 们 所 做 的 一 切 进行 数字 化 记录 的 启示 。Patrick 
Tucker 的 The Naked Future (Current，2014) 探索 了 在 我 们 的 世界 中 ， 
进行 预测 时 对 数据 的 使 用 及 滥用 。 在 “Privacy pragmatism” (Foreign 
Affairs, 2014) 一 文中 ，Craig Mundie 支 持 在 收集 和 利用 数据 时 使 用 均 
衡 法 。Erik Brynjolfsson 和 Andrew McAfee 的 The Second Machine Age 

(Norton，2014) 讨论 了 人 工 知 能 的 进步 会 对 未 来 的 工作 及 经 济 造 成 


的 影响 。Chris Baraniuk 的 “World War R” (New Scientist 2014) 总 结 
绕 能 否 在 战争 中 使 用 机 器 人 的 淳 论 。Stephen Hawking 等 人 
的 “Transcending complacency on superintelligent machines” (Huffington 
Post, 2014) 一 文 提出 当下 正 是 担心 人 工 智能 危机 的 时 候 。Nick 
Bostrom 的 Superintelligence (Oxford University Press, 2014) 一 书 提 到 
了 一 些 危 险 ， 并 说 明 应 该 怎样 应 对 这 些 危 险 。 


Richard Hawking 的 A Brief History of Life (Random Penguin, 1982) 
一 书 总 结 了 计算 机 出 现 之 前 的 量子 跳 路 。Ray Kurzweil 的 The 
Singularity Is Near (Penguin, 2005) 可 带领 我 们 进入 “超人 类 ”未 来 。 在 
Radical Evolution (Broadway Books, 2005) 中 ，Joel Garreau 就 人 类 指 
回 的 进化 在 Radical Evolution (Broadway Books, 2005) 中 如 何 展现 设 
想 了 三 个 不 同 的 情景 。 在 What Technology Wants (Penguin, 2010) 中 ， 
Kevin Kelly 提 出 技术 区 是 以 其 他 方式 来 对 进化 进行 延续 。George 
Dyson 的 Darwin Among the Machine (Basic Books, 1997) 一 书 回顾 了 技 
术 的 发 展 史 ， 并 设想 技术 将 会 把 我 们 带 往 何 处 。 在 Life at the Speed of 
Light (Viking，2013) 一 书 中 ，Craig Venter 解 释 了 他 的 团队 如 何 合成 
活 细 胞 。 


